Аудит источников
Что грузим в базу: PDF-договоры, Notion-страницы, Confluence-вики, Google Docs, переписки, кейсы. Считаем объём в токенах.
RAG-СИСТЕМЫ
Не общая GPT-болталка, а ассистент с векторной базой ваших документов: договоры, инструкции, кейсы, FAQ, переписки. Отвечает строго на основе вашего контента, цитирует источник.
О подходе
Главная проблема обычного GPT/Claude в бизнесе — он не знает специфики вашей компании. Не знает ваш прайс, услуги, регламенты, кейсы. И ещё «галлюцинирует» — придумывает факты, которых в реальности нет. RAG (Retrieval-Augmented Generation) решает обе проблемы: загружаем ваши документы в векторную базу (pgvector / Qdrant) → перед ответом AI ищет релевантные куски → отвечает строго на их основе → цитирует источник в ответе. Подходит для внутренней базы знаний компании, support-чата для клиентов, ассистента продавцов с базой кейсов.
Процесс
Что грузим в базу: PDF-договоры, Notion-страницы, Confluence-вики, Google Docs, переписки, кейсы. Считаем объём в токенах.
Документы разбиваются на смысловые блоки 200–500 токенов. Каждый получает векторное представление через embedding-модель.
pgvector (если уже Postgres в стеке) или Qdrant (отдельный сервис). Индексирование, метаданные (источник, дата, автор).
Запрос → поиск 3–7 релевантных кусков → передача в LLM с инструкцией «отвечай только на основе этих кусков, цитируй источник».
Чат-виджет на сайте, бот в Slack/Telegram, или встройка в CRM. С обязательным показом источника каждого ответа.
Cron-задача переиндексирует Notion/Confluence раз в час. Новые документы попадают в RAG автоматически.
Что входит в стоимость
Частые вопросы
Обычный бот отвечает на основе общих знаний модели + промпта. RAG — на основе ВАШИХ документов в векторной БД. Бот без RAG отвечает «как сказал бы общий эксперт». RAG-бот отвечает «по вашему регламенту от 2024-04-15, пункт 3.2».
Любые текстовые: PDF, DOCX, Markdown, Notion, Confluence, Google Docs, переписки в Slack/Telegram. Изображения и видео — нет (требует мультимодальной модели и в 5–10 раз дороже).
Векторная база на нашем VDS (или вашем). LLM-вызовы — на выбор: облачные (GPT/Claude) или локальные (Llama/Qwen на нашем GPU). Для чувствительных данных рекомендуем локальные — данные не покидают инфраструктуру.
Хостинг векторной БД 5–15 тыс ₽/мес (зависит от объёма). Облачные LLM-вызовы по факту использования (5–30 тыс ₽/мес для команды 10–50 человек). Локальные модели — стоимость GPU-сервера от 30 тыс ₽/мес.
Другие услуги направления
Готовы запустить интеграция rag для базы знаний?
Расскажите про задачу — за 1–2 рабочих дня вернёмся со сметой, сроками и расчётом окупаемости. Бесплатно.
Получить расчёт →