RAG (Retrieval-Augmented Generation): как нейросеть отвечает по вашим документам

TL;DR

RAG (Retrieval-Augmented Generation) — это архитектура, при которой нейросеть перед ответом сначала ищет релевантные куски в вашей базе знаний (PDF, регламенты, CRM, прайсы), а потом генерирует ответ только на основе найденного. Не переобучаем модель — просто подкладываем ей актуальные документы в контекст. Стоит в 50–200 раз дешевле fine-tuning и обновляется за секунды, а не за дни.

Формула

Если кратко описать процесс одной строкой:

Ответ = LLM( Запрос пользователя + ТОП-K кусков из вашей базы знаний )

Развёрнутый пайплайн из 4 шагов:

1. Индексация:  Документы → чанки (500–1500 токенов) → эмбеддинги → векторная БД
2. Поиск:       Вопрос → эмбеддинг вопроса → top-K похожих чанков (cosine similarity)
3. Промпт:      "Ответь на вопрос {Q}, используя только этот контекст: {chunks}"
4. Генерация:   LLM (GPT-4o / Claude / YandexGPT) выдаёт ответ + ссылки на источники

Ключевая метрика качества — Recall@K: процент случаев, когда правильный ответ оказался в top-K найденных кусков. Норма для продакшена — Recall@5 ≥ 90%.

На пальцах: бот техподдержки для казанской стоматологии

Сеть из 4 клиник в Казани. У администраторов 240 типовых вопросов от пациентов в день: «сколько стоит имплант», «можно ли с молочными зубами на коронку», «работаете ли по ДМС РГС». Документация — 180 страниц прайса, регламентов, FAQ и условий рассрочки в Notion + Google Docs.

Без RAG: обучаем администратора 2 недели. При увольнении — заново. Чат-бот на правилах покрывает 40 сценариев из 240.

С RAG (наш стек):

Выгружаем 180 страниц регламентов через API Notion → разбиваем на 1200 чанков по 800 токенов
Каждый чанк прогоняем через text-embedding-3-small от OpenAI (~$0.40 за всю базу)
Складываем векторы в Qdrant или pgvector (PostgreSQL расширение, бесплатно на нашем VDS)
Бот в Telegram: пациент пишет «сколько стоит зирконий на 4 нижних» → ищем top-5 чанков по эмбеддингу вопроса → GPT-4o-mini отвечает по найденному

Цифры за первый месяц:

78% вопросов закрыты без участия администратора
Стоимость одного ответа — 0.4 ₽ (модель + эмбеддинг)
Время до ответа — 2.1 сек
Время разработки — 3 недели, бюджет 320 000 ₽
Окупаемость — 4 месяца за счёт того, что 1 администратор закрывает то, что раньше делали 2

Где смотреть / как мерить

Ключевые метрики качества RAG-системы и где их брать:

| Метрика | Что показывает | Где смотреть | |---|---|---| | Recall@K | % случаев, когда правильный чанк в топе | Логи retrieval-слоя (LangSmith / Langfuse) | | Faithfulness | насколько ответ опирается на найденное (не галлюцинирует) | Ragas, DeepEval — открытые библиотеки | | Answer Relevance | релевантность ответа вопросу | Ragas + human review на выборке 50–100 ответов | | Latency p95 | задержка 95-го перцентиля | Grafana / встроенный мониторинг LLM-провайдера | | Cost per query | себестоимость одного ответа | Сумма (эмбеддинг запроса + контекст × цена токена + ответ × цена токена) |

В Яндекс.Метрике на сайте с RAG-ботом обязательно ставим цели: rag_query_sent, rag_answer_helpful (большой палец вверх), rag_escalated_to_human (нажал «позвать оператора»). Это даёт честную картину NPS бота.

Хороший vs плохой показатель

Бенчмарки по нишам, которые мы видели на реальных внедрениях:

| Сценарий | Хорошо | Плохо | Критично | |---|---|---|---| | Внутренняя база знаний (помощник для сотрудников) | Recall@5 ≥ 92%, Faithfulness ≥ 0.85 | Recall@5 70–90% | < 70% — бот вредит, лучше отключить | | Бот техподдержки (внешний) | Closure rate ≥ 65%, эскалация ≤ 25% | Closure 40–65% | < 40% — пользователи злятся, репутационный риск | | AI-юрист (анализ договоров) | Точность извлечения сущностей ≥ 95% | 85–95% | < 85% — нельзя в продакшен без human-in-the-loop | | AI-аналитик отчётов | Точность чисел из таблиц ≥ 98% | 90–98% | < 90% — врёт в цифрах, бизнес теряет деньги | | Стоимость одного ответа | ≤ 1 ₽ для массового бота | 1–3 ₽ | > 5 ₽ — экономика не сходится при объёме |

Главный антипаттерн: запустить RAG без оценки качества «на глаз». Через месяц бот галлюцинирует 30% ответов, никто не замечает, клиенты жалуются — и команда винит «GPT тупой». Виноват не GPT — виновата система без метрик.

4 рабочих сценария для b2b

Где RAG реально окупается за 3–6 месяцев:

1. Внутренний помощник для сотрудников Производственная компания в Казани, 380 сотрудников, регламенты в 22 разных папках на сервере. Менеджер тратит 15 минут на поиск условия по конкретному типу договора. RAG-бот в Telegram — отвечает за 3 секунды. Экономия: 1.2 часа в день на сотрудника × 50 активных пользователей = 60 человеко-часов ежедневно.

2. Бот техподдержки (внешний) E-com магазин стройматериалов, 8 000 заказов в месяц, 4 200 обращений в чат. RAG-бот на 1С + Notion + база товаров отвечает на «когда привезут», «как вернуть», «совместима ли эта дверь с моей коробкой». Закрытие первой линии — 71%, экономия 2 операторов = ~180 000 ₽/мес.

3. AI-юрист (предварительный аудит договоров) SaaS-стартап подписывает 40 контрактов в месяц. RAG-система с базой типовых рисков и судебной практики выделяет проблемные пункты (нестандартная подсудность, односторонний выход, штрафы > 10%). Юрист тратит 20 минут вместо 2 часов на договор.

4. AI-аналитик отчётов Сеть автосервисов, 12 точек, каждая шлёт еженедельный Excel с 60 KPI. RAG поверх отчётов + YandexGPT отвечает гендиректору в Telegram: «какая точка просела по среднему чеку в мае и почему». Раньше — аналитик 4 часа собирал ответ.

RAG vs Fine-tuning: что когда выбирать

Самая частая путаница у клиентов. Коротко и по делу:

| Критерий | RAG | Fine-tuning | |---|---|---| | Что меняем | Контекст (документы) | Веса модели | | Стоимость старта | 50 000 – 500 000 ₽ | 2 000 000 – 10 000 000 ₽ | | Обновление данных | Секунды (загрузил новый документ) | Дни (нужно переобучать) | | Прозрачность ответа | Высокая (видны источники) | Низкая (модель «знает» откуда-то) | | Галлюцинации | Контролируются промптом | Сложнее контролировать | | Когда выбирать | 90% бизнес-задач | Только когда нужен особый стиль/тон/доменный язык |

Правило большого пальца: начинай с RAG. Fine-tuning — это «вишенка сверху», когда RAG уже работает и нужно дотюнить именно стиль ответов.

Связанные понятия

Эмбеддинги — числовое представление текста, на котором строится поиск в RAG (статья в работе)
Векторная БД — где хранятся эмбеддинги: Qdrant, pgvector, Weaviate, Pinecone
LLM — большая языковая модель, которая генерирует финальный ответ
Промпт-инжиниринг — как составить инструкцию, чтобы модель отвечала строго по найденному контексту
Hallucination — когда модель выдумывает факты, которых нет в источниках
Hybrid Search — комбинация семантического (по эмбеддингам) и классического (BM25) поиска для повышения Recall

Когда пора звонить TREX

Если у вас на проекте сейчас:

100+ страниц документации, и сотрудники тратят больше 30 минут в день на поиск ответов
Чат-бот на правилах закрывает меньше 50% обращений, а нанимать ещё одного оператора дорого
Гендиректор хочет «спросить у данных», а аналитик в отпуске
Юрист становится бутылочным горлышком в скорости заключения сделок

— это сценарии, где RAG окупается за 3–6 месяцев. Мы строим такие системы на стеке OpenAI / Claude / YandexGPT + pgvector + Next.js под российский периметр (данные не уходят за границу). Первый созвон бесплатный, на нём считаем экономику конкретно под вашу задачу — не «много», а в рублях окупаемости.

Если у вас нет однозначного ответа на «сколько мы зарабатываем на одном клиенте» — мы остановимся, посчитаем, и только потом будем тратить ваш рекламный бюджет. — Кирилл Даловский, основатель TREX DIGITAL

Частые вопросы про RAG

Что такое RAG простыми словами? RAG — это когда нейросеть перед ответом сначала ищет нужные документы в вашей базе (прайс, регламенты, CRM), а потом отвечает строго по найденному. По сути — умный поиск + генерация связного текста на основе результатов. Модель не переобучаем, просто подкладываем ей актуальные данные.

RAG vs Fine-tuning — что лучше? В 90% бизнес-задач лучше RAG: дешевле в 50–200 раз, обновляется за секунды, показывает источники ответа. Fine-tuning имеет смысл только когда нужен особый стиль или доменный язык (например, юридический slang). Универсальное правило: начинай с RAG, fine-tuning — потом, если упрёшься в качество.

Как считать стоимость одного ответа в RAG-системе? Складываем три числа: (а) эмбеддинг запроса — обычно $0.00002 за вопрос на text-embedding-3-small; (б) контекст × цена входящих токенов модели; (в) ответ × цена исходящих токенов. На GPT-4o-mini средний ответ обходится 0.3–1 ₽, на GPT-4o — 3–8 ₽, на YandexGPT Pro — 0.5–2 ₽.

Какой Recall@K считается хорошим для RAG? Для продакшена — Recall@5 ≥ 90%: правильный кусок должен попадать в top-5 найденных в 9 случаях из 10. Ниже 80% — бот будет регулярно врать. Если Recall просел, помогает hybrid search (семантика + BM25), переиндексация чанков другого размера или reranker поверх top-20.

Где смотреть метрики качества RAG в проде? Открытые библиотеки Ragas и DeepEval считают Faithfulness, Answer Relevance, Context Precision. Логирование запросов и ответов — Langfuse или LangSmith (есть бесплатные тарифы). На сайте бизнес-метрики (количество запросов, эскалация на оператора, NPS) ставим целями в Яндекс.Метрике.

Когда RAG-показатели — повод бить тревогу? Три красных флага: (1) Closure rate бота техподдержки упал ниже 50% — пользователи злятся, репутационный риск; (2) Faithfulness ниже 0.7 — модель галлюцинирует, придумывает факты; (3) стоимость ответа выше 5 ₽ при массовом сценарии — экономика не сходится. Любой из этих сигналов — повод остановиться, переиндексировать базу или поменять модель.