Глоссарий маркетинга и AI
RAG (Retrieval-Augmented Generation): как нейросеть отвечает по вашим документам
Также: Retrieval-Augmented Generation · Генерация с дополненным поиском
Автор: Кирилл Даловский
TL;DR
RAG (Retrieval-Augmented Generation) — это архитектура, при которой нейросеть перед ответом сначала ищет релевантные куски в вашей базе знаний (PDF, регламенты, CRM, прайсы), а потом генерирует ответ только на основе найденного. Не переобучаем модель — просто подкладываем ей актуальные документы в контекст. Стоит в 50–200 раз дешевле fine-tuning и обновляется за секунды, а не за дни.
Формула
Если кратко описать процесс одной строкой:
Ответ = LLM( Запрос пользователя + ТОП-K кусков из вашей базы знаний )
Развёрнутый пайплайн из 4 шагов:
1. Индексация: Документы → чанки (500–1500 токенов) → эмбеддинги → векторная БД
2. Поиск: Вопрос → эмбеддинг вопроса → top-K похожих чанков (cosine similarity)
3. Промпт: "Ответь на вопрос {Q}, используя только этот контекст: {chunks}"
4. Генерация: LLM (GPT-4o / Claude / YandexGPT) выдаёт ответ + ссылки на источники
Ключевая метрика качества — Recall@K: процент случаев, когда правильный ответ оказался в top-K найденных кусков. Норма для продакшена — Recall@5 ≥ 90%.
На пальцах: бот техподдержки для казанской стоматологии
Сеть из 4 клиник в Казани. У администраторов 240 типовых вопросов от пациентов в день: «сколько стоит имплант», «можно ли с молочными зубами на коронку», «работаете ли по ДМС РГС». Документация — 180 страниц прайса, регламентов, FAQ и условий рассрочки в Notion + Google Docs.
Без RAG: обучаем администратора 2 недели. При увольнении — заново. Чат-бот на правилах покрывает 40 сценариев из 240.
С RAG (наш стек):
- Выгружаем 180 страниц регламентов через API Notion → разбиваем на 1200 чанков по 800 токенов
- Каждый чанк прогоняем через
text-embedding-3-smallот OpenAI (~$0.40 за всю базу) - Складываем векторы в Qdrant или pgvector (PostgreSQL расширение, бесплатно на нашем VDS)
- Бот в Telegram: пациент пишет «сколько стоит зирконий на 4 нижних» → ищем top-5 чанков по эмбеддингу вопроса → GPT-4o-mini отвечает по найденному
Цифры за первый месяц:
- 78% вопросов закрыты без участия администратора
- Стоимость одного ответа — 0.4 ₽ (модель + эмбеддинг)
- Время до ответа — 2.1 сек
- Время разработки — 3 недели, бюджет 320 000 ₽
- Окупаемость — 4 месяца за счёт того, что 1 администратор закрывает то, что раньше делали 2
Где смотреть / как мерить
Ключевые метрики качества RAG-системы и где их брать:
| Метрика | Что показывает | Где смотреть | |---|---|---| | Recall@K | % случаев, когда правильный чанк в топе | Логи retrieval-слоя (LangSmith / Langfuse) | | Faithfulness | насколько ответ опирается на найденное (не галлюцинирует) | Ragas, DeepEval — открытые библиотеки | | Answer Relevance | релевантность ответа вопросу | Ragas + human review на выборке 50–100 ответов | | Latency p95 | задержка 95-го перцентиля | Grafana / встроенный мониторинг LLM-провайдера | | Cost per query | себестоимость одного ответа | Сумма (эмбеддинг запроса + контекст × цена токена + ответ × цена токена) |
В Яндекс.Метрике на сайте с RAG-ботом обязательно ставим цели: rag_query_sent, rag_answer_helpful (большой палец вверх), rag_escalated_to_human (нажал «позвать оператора»). Это даёт честную картину NPS бота.
Хороший vs плохой показатель
Бенчмарки по нишам, которые мы видели на реальных внедрениях:
| Сценарий | Хорошо | Плохо | Критично | |---|---|---|---| | Внутренняя база знаний (помощник для сотрудников) | Recall@5 ≥ 92%, Faithfulness ≥ 0.85 | Recall@5 70–90% | < 70% — бот вредит, лучше отключить | | Бот техподдержки (внешний) | Closure rate ≥ 65%, эскалация ≤ 25% | Closure 40–65% | < 40% — пользователи злятся, репутационный риск | | AI-юрист (анализ договоров) | Точность извлечения сущностей ≥ 95% | 85–95% | < 85% — нельзя в продакшен без human-in-the-loop | | AI-аналитик отчётов | Точность чисел из таблиц ≥ 98% | 90–98% | < 90% — врёт в цифрах, бизнес теряет деньги | | Стоимость одного ответа | ≤ 1 ₽ для массового бота | 1–3 ₽ | > 5 ₽ — экономика не сходится при объёме |
Главный антипаттерн: запустить RAG без оценки качества «на глаз». Через месяц бот галлюцинирует 30% ответов, никто не замечает, клиенты жалуются — и команда винит «GPT тупой». Виноват не GPT — виновата система без метрик.
4 рабочих сценария для b2b
Где RAG реально окупается за 3–6 месяцев:
1. Внутренний помощник для сотрудников Производственная компания в Казани, 380 сотрудников, регламенты в 22 разных папках на сервере. Менеджер тратит 15 минут на поиск условия по конкретному типу договора. RAG-бот в Telegram — отвечает за 3 секунды. Экономия: 1.2 часа в день на сотрудника × 50 активных пользователей = 60 человеко-часов ежедневно.
2. Бот техподдержки (внешний) E-com магазин стройматериалов, 8 000 заказов в месяц, 4 200 обращений в чат. RAG-бот на 1С + Notion + база товаров отвечает на «когда привезут», «как вернуть», «совместима ли эта дверь с моей коробкой». Закрытие первой линии — 71%, экономия 2 операторов = ~180 000 ₽/мес.
3. AI-юрист (предварительный аудит договоров) SaaS-стартап подписывает 40 контрактов в месяц. RAG-система с базой типовых рисков и судебной практики выделяет проблемные пункты (нестандартная подсудность, односторонний выход, штрафы > 10%). Юрист тратит 20 минут вместо 2 часов на договор.
4. AI-аналитик отчётов Сеть автосервисов, 12 точек, каждая шлёт еженедельный Excel с 60 KPI. RAG поверх отчётов + YandexGPT отвечает гендиректору в Telegram: «какая точка просела по среднему чеку в мае и почему». Раньше — аналитик 4 часа собирал ответ.
RAG vs Fine-tuning: что когда выбирать
Самая частая путаница у клиентов. Коротко и по делу:
| Критерий | RAG | Fine-tuning | |---|---|---| | Что меняем | Контекст (документы) | Веса модели | | Стоимость старта | 50 000 – 500 000 ₽ | 2 000 000 – 10 000 000 ₽ | | Обновление данных | Секунды (загрузил новый документ) | Дни (нужно переобучать) | | Прозрачность ответа | Высокая (видны источники) | Низкая (модель «знает» откуда-то) | | Галлюцинации | Контролируются промптом | Сложнее контролировать | | Когда выбирать | 90% бизнес-задач | Только когда нужен особый стиль/тон/доменный язык |
Правило большого пальца: начинай с RAG. Fine-tuning — это «вишенка сверху», когда RAG уже работает и нужно дотюнить именно стиль ответов.
Связанные понятия
- Эмбеддинги — числовое представление текста, на котором строится поиск в RAG (статья в работе)
- Векторная БД — где хранятся эмбеддинги: Qdrant, pgvector, Weaviate, Pinecone
- LLM — большая языковая модель, которая генерирует финальный ответ
- Промпт-инжиниринг — как составить инструкцию, чтобы модель отвечала строго по найденному контексту
- Hallucination — когда модель выдумывает факты, которых нет в источниках
- Hybrid Search — комбинация семантического (по эмбеддингам) и классического (BM25) поиска для повышения Recall
Когда пора звонить TREX
Если у вас на проекте сейчас:
- 100+ страниц документации, и сотрудники тратят больше 30 минут в день на поиск ответов
- Чат-бот на правилах закрывает меньше 50% обращений, а нанимать ещё одного оператора дорого
- Гендиректор хочет «спросить у данных», а аналитик в отпуске
- Юрист становится бутылочным горлышком в скорости заключения сделок
— это сценарии, где RAG окупается за 3–6 месяцев. Мы строим такие системы на стеке OpenAI / Claude / YandexGPT + pgvector + Next.js под российский периметр (данные не уходят за границу). Первый созвон бесплатный, на нём считаем экономику конкретно под вашу задачу — не «много», а в рублях окупаемости.
Если у вас нет однозначного ответа на «сколько мы зарабатываем на одном клиенте» — мы остановимся, посчитаем, и только потом будем тратить ваш рекламный бюджет. — Кирилл Даловский, основатель TREX DIGITAL
Частые вопросы про RAG
Что такое RAG простыми словами? RAG — это когда нейросеть перед ответом сначала ищет нужные документы в вашей базе (прайс, регламенты, CRM), а потом отвечает строго по найденному. По сути — умный поиск + генерация связного текста на основе результатов. Модель не переобучаем, просто подкладываем ей актуальные данные.
RAG vs Fine-tuning — что лучше? В 90% бизнес-задач лучше RAG: дешевле в 50–200 раз, обновляется за секунды, показывает источники ответа. Fine-tuning имеет смысл только когда нужен особый стиль или доменный язык (например, юридический slang). Универсальное правило: начинай с RAG, fine-tuning — потом, если упрёшься в качество.
Как считать стоимость одного ответа в RAG-системе? Складываем три числа: (а) эмбеддинг запроса — обычно $0.00002 за вопрос на text-embedding-3-small; (б) контекст × цена входящих токенов модели; (в) ответ × цена исходящих токенов. На GPT-4o-mini средний ответ обходится 0.3–1 ₽, на GPT-4o — 3–8 ₽, на YandexGPT Pro — 0.5–2 ₽.
Какой Recall@K считается хорошим для RAG? Для продакшена — Recall@5 ≥ 90%: правильный кусок должен попадать в top-5 найденных в 9 случаях из 10. Ниже 80% — бот будет регулярно врать. Если Recall просел, помогает hybrid search (семантика + BM25), переиндексация чанков другого размера или reranker поверх top-20.
Где смотреть метрики качества RAG в проде? Открытые библиотеки Ragas и DeepEval считают Faithfulness, Answer Relevance, Context Precision. Логирование запросов и ответов — Langfuse или LangSmith (есть бесплатные тарифы). На сайте бизнес-метрики (количество запросов, эскалация на оператора, NPS) ставим целями в Яндекс.Метрике.
Когда RAG-показатели — повод бить тревогу? Три красных флага: (1) Closure rate бота техподдержки упал ниже 50% — пользователи злятся, репутационный риск; (2) Faithfulness ниже 0.7 — модель галлюцинирует, придумывает факты; (3) стоимость ответа выше 5 ₽ при массовом сценарии — экономика не сходится. Любой из этих сигналов — повод остановиться, переиндексировать базу или поменять модель.