Привет!
Меня зовут Павел Кариков. Я специалист по большим языковым моделям (LLM) и практикующий промпт-инженер с глубоким техническим образованием и реальным опытом внедрения ИИ в бизнес.
Мое профессиональное образование:
🎓 Курс «Нейросети без границ (российские аналоги)» – 82 академических часа, университет Zerocoder, 2025 г.
Глубокое погружение в работу российских нейросетей (YandexGPT, GigaChat), их возможности и особенности внедрения в бизнес-процессы с учетом локальной специфики.

🎓 Курс «Промпт-инжиниринг 3.0» – 130 академических часов, университет Zerocoder, 2026 г.
Продвинутые техники создания многоуровневых промптов, работа с API, программирование на Python с библиотеками LangChain, создание RAG-систем (когда ИИ ищет ответы в ваших документах), интеграция с CRM и бизнес-инструментами, fine-tuning моделей под специфические задачи, развертывание в облаках и локально.
Что это значит для вашего бизнеса простыми словами:
Я не просто «общаюсь» с LLM. Я понимаю, как нейросети устроены изнутри, и умею встраивать их в ваши рабочие процессы так, чтобы они реально приносили деньги. Я соединяю глубокие технические знания с бизнес-мышлением и говорю на понятном языке.
Моя экспертиза позволяет:
- Создавать ИИ-ассистентов, которые работают с вашей уникальной базой знаний.
- Автоматизировать рутину в маркетинге и продажах без сложного программирования.
- Интегрировать нейросети с вашей CRM, таблицами и мессенджерами.
- Обучить вашу команду так, чтобы вы не зависели от внешних специалистов.
- Защитить ваш бизнес от юридических рисков, связанных с ИИ.
Я помогаю бизнесу зарабатывать больше с помощью искусственного интеллекта. Внедряю нейросети в маркетинг и продажи так, что ваши сотрудники начинают работать в 3-5 раз быстрее, а расходы на подрядчиков уходят в прошлое.
Работаю с собственниками бизнеса и руководителями, которые хотят усилить команду без найма новых людей и сократить расходы без потери качества.
Мои кейсы
Кейс 1
Внедрение интеллектуального AI-ассистента (RAG-бота) для автоматизации первичных консультаций в инженерно-строительной компании.
Компания: инженерная компания, специализирующаяся на проектирование, монтаже и сервисном обслуживании инженерных систем загородных домов от 100 м2 в Московской области.
Проблема / Точка боли:
До внедрения решения компания сталкивалась со следующими вызовами:
-
Высокая нагрузка на инженеров: Сотрудники тратили до 30% своего рабочего времени на повторяющиеся вопросы потенциальных клиентов по телефону и в мессенджерах. Вопросы касались как стоимости услуг, так и разъяснения сложных инженерных терминов (например, «в чем разница между приточной и вытяжной вентиляцией?» или «что входит в пакет “Умный дом.Стандарт”?»).
-
Долгое время ответа: Первичная реакция на запрос в нерабочее время или при загруженности специалиста составляла от 2 до 6 часов, что приводило к потере части «горячих» лидов.
-
Необходимость повышения экспертизы на входе: Менеджеры отдела продаж не всегда могли квалифицированно ответить на технические вопросы, а привлекать для этого инженеров на начальном этапе было неэффективно.
Решение: Разработка и внедрение Telegram-бота с RAG-архитектурой
Для решения поставленных задач был разработан специализированный AI-ассистент на базе Telegram-бота.
Ключевой особенностью бота является использование RAG (Retrieval-Augmented Generation) системы, которая позволяет ему давать точные и релевантные ответы, основываясь исключительно на документах компании.
Техническая архитектура и функциональность:
-
База знаний (RAG-система):
-
В векторное хранилище (базу данных, где информация хранится в виде математических векторов) загружена техническая и коммерческая документация компании: описание пакетных решений, технические паспорта оборудования, глоссарий инженерных терминов, типовые сметы и ответы на частые вопросы (FAQ).
-
При поступлении запроса от пользователя, система находит наиболее релевантные фрагменты документов, соответствующие смыслу вопроса, и передает их в большую языковую модель (LLM) для генерации ответа. Это исключает ситуацию, когда бот «галлюцинирует» (придумывает несуществующие факты).
-
-
Основные сценарии использования (для чего нужен бот):
-
Первичная консультация по услугам: Бот подробно рассказывает о пакетных решениях компании, их составе, сроках реализации и стоимости, помогая клиенту на этапе выбора.
-
Объяснение инженерных терминов: Ассистент выступает в роли справочника, понятным языком объясняя сложные технические понятия, что повышает доверие клиента и его вовлеченность.
-
-
Инженерные доработки для эффективности:
-
Кеширование данных: Наиболее частые запросы и ответы на них сохраняются в специальном хранилище (кэше). Это позволяет боту отвечать мгновенно, не обращаясь каждый раз к RAG-системе и языковой модели, что кратно ускоряет работу и снижает операционные затраты на вызовы API.
-
Запись логов в CSV файл: Все диалоги с пользователями автоматически логируются (записываются) в структурированный CSV-файл. Это дает возможность анализировать потребности клиентов, выявлять самые популярные вопросы и на основе этих данных улучшать скрипты продаж и документацию.
-
Оценка качества (RAGAS): Внедрена система метрик RAGAS для автоматической оценки качества генерируемых ответов (их релевантности, достоверности и полноты), что позволяет постоянно улучшать работу ассистента.
-
Результаты и экономический эффект:
Внедрение AI-ассистента позволило достичь следующих показателей за первый квартал эксплуатации:
-
Рост скорости реакции:
-
Время первичного ответа клиенту сократилось в 5 раз. Бот отвечает мгновенно 24/7, что особенно ценно для клиентов, изучающих предложения в вечернее время.
-
Автоматизировано более 60% всех входящих обращений на первичном этапе.
-
-
Высвобождение ресурсов и экономия фонда оплаты труда (ФОТ):
-
Нагрузка на инженеров и менеджеров по первичным консультациям снизилась на 70%, что позволило им сфокусироваться на сложных задачах и работе с «теплыми» лидами.
-
Годовой экономический эффект от экономии рабочего времени составил 720 000 рублей. Эта сумма рассчитана исходя из ставки менеджера ОП, среднего времени, затрачиваемого на консультации, и доли автоматизированных запросов.
-
Дополнительным эффектом стало сокращение налоговой нагрузки на бизнес (страховые взносы с ФОТ), так как фактически высвободившиеся часы не требуют привлечения дополнительного персонала или оплаты сверхурочных.
-
-
Оптимизация операционных расходов:
-
Физически высвобождены ресурсы на содержание и оборудование рабочих мест (нет необходимости расширять штат и закупать для новых сотрудников ПК, софт, мебель).
-
Выводы и дальнейшее развитие:
Разработанный AI-ассистент на базе Telegram-бота с RAG-системой доказал свою эффективность как инструмент автоматизации продаж и повышения качества клиентского сервиса. Он не только экономит время и деньги компании, но и создает конкурентное преимущество за счет мгновенной и высокоточной обратной связи с потенциальными заказчиками. В планах развития — интеграция бота с CRM-системой для автоматической передачи квалифицированных лидов менеджерам.
Кейс 2
Как мы дообучали AI-консультанта для инженерной компании: кейс, ошибки и выводы
Введение: зачем строительной компании свой AI-консультант
Наша компания уже 12 лет проектирует и монтирует инженерные системы для загородных домов в Московской области. Мы прошли более 150 объектов — от скромных дач до резиденций под 800 м². Клиенты задают сотни вопросов: от «что такое гидрострелка?» до «сколько стоит пробурить скважину в Истре?».
Мы задумались: а можно ли автоматизировать первичные консультации, разгрузить инженеров и при этом не потерять в качестве? Так родилась идея создать AI-консультанта — дружелюбного, экспертного, но при этом честного и не склонного к галлюцинациям.
Задача звучала просто:
-
отвечать на вопросы по инженерии (отопление, вода, канализация, электрика, вентиляция);
-
давать ценовые ориентиры, но не выдумывать цифры;
-
честно говорить «нет данных» и запрашивать уточнения;
-
работать в условиях ограниченных вычислительных мощностей (CPU).
Спойлер: не всё пошло гладко. Но мы получили бесценный опыт и готовы им поделиться.
Этап 1. Создание датасета: 882 вопроса, которые учат модель честности
Первый шаг — данные. Мы проанализировали реальные обращения клиентов, изучили FAQ компании и сформулировали 882 инструкции в формате instruction-output.
Что вошло в датасет:
-
Технические вопросы: «Какой котел выбрать для дома 150 м²?», «Нужен ли теплый пол на втором этаже?»
-
Вопросы о компании: «Сколько лет вы работаете?», «Дайте телефон мастера»
-
Ценовые вопросы: «Сколько стоит монтаж под ключ?»
-
Географические: «Вы работаете в Твери?»
-
Провокационные: «Можно ли сэкономить на проекте?»
Особый акцент — «анти-галлюцинационные» примеры
Мы специально добавили вопросы, на которые модель не должна давать точный ответ без уточнений:
-
«Сколько стоит газовый котел?» → ответ должен запрашивать мощность, тип, регион.
-
«Приедете в Калугу?» → ответ должен уточнять регион и границы ответственности.
-
«Дайте телефон инженера» → ответ должен перенаправлять на официальные каналы.
Пример правильного ответа модели:
«Точную цену без исходных данных назвать нельзя. На стоимость влияют площадь дома, тип котла, наличие газа, количество санузлов. Могу дать ориентир: пакет «Базовый» для дома 100–160 м² стартует от 3,3 млн рублей. Хотите, подготовим точный расчёт?»
Этап 2. Выбор базовой модели: pragmatism VS quality
Мы выбрали ruGPT-3small (ai-forever) — лёгкую русскоязычную модель на архитектуре GPT-2. Почему?
-
Можно запустить на CPU (важно для экспериментов).
-
Быстрое дообучение.
-
Есть опыт работы с ней в сообществе.
Минусы, которые мы осознавали, но надеялись обойти:
-
малый объём знаний;
-
склонность к галлюцинациям;
-
слабое следование инструкциям.
Как показала практика, надежды не оправдались.
Этап 3. Дообучение через LoRA: быстро, дёшево, но…
Мы использовали LoRA (Low-Rank Adaptation) — метод параметрически эффективной настройки, который дообучает лишь небольшую часть весов модели.
Код обучения (упрощённо):
from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"], lora_dropout=0.1 ) model = get_peft_model(base_model, lora_config)
Обучали на наших 882 примерах. Процесс прошёл штатно, loss снижался. Но первые же тесты показали проблему.
Этап 4. Первые тесты: галлюцинации в лучших традициях GPT
Вот что выдавала модель после дообучения:
«Стоимость монтажа газового котла в доме 150 м² составляет ровно 247 890 рублей, включая доставку и настройку. Мастер приедет в течение 2 часов.»
Красиво, конкретно — и абсолютно ложно. Мы не публикуем таких цен, не обещаем 2 часа, не даём точных цифр без расчёта.
Модель выдумывала:
-
конкретные цены;
-
имена и телефоны сотрудников;
-
сроки работ;
-
технические детали, которых нет в датасете.
Почему? Потому что GPT-2 — это языковая модель, которая просто предсказывает следующее слово. Если в обучающих данных были числа, она будет генерировать числа. Если были имена — будет генерировать имена. Ей всё равно, правда это или нет.
Этап 5. Что мы сделали, чтобы исправить ситуацию
5.1. Увеличили датасет и добавили «честных» примеров
Довели объём до 882 строк, вручную прописали ответы на сложные вопросы про цены и географию. Это дало модели больше опорных точек.
5.2. Снизили креативность генерации
response = generate_response( model, tokenizer, prompt, max_length=512, temperature=0.3, # было 0.7 top_p=0.8, top_k=40 )
Модель стала менее «креативной», но галлюцинации не исчезли – просто стали менее разнообразными.
5.3. Добавили системный промпт
Мы научили модель начинать ответ с уточнений, если вопрос нечёткий. Но запретить выдумывать факты промптом невозможно — это свойство архитектуры.
5.4. Внедрили RAG (поиск по датасету)
Retrieval-Augmented Generation — единственное, что реально помогло.
Как это работает:
-
Приходит вопрос.
-
Ищем в датасете самый похожий пример (через косинусную близость эмбеддингов).
-
Подмешиваем найденный пример в промпт как контекст.
-
Модель генерирует ответ с опорой на реальный пример.
Результат: если вопрос похож на обучающий, ответ становится почти эталонным. Если нет — модель всё равно галлюцинирует, но реже.
Итоговый вывод: почему маленькая модель не работает как консультант
Мы сделали всё возможное в рамках выбранной архитектуры:
-
собрали качественный датасет;
-
дообучили через LoRA;
-
настроили генерацию;
-
добавили RAG;
-
прописали системные промпты.
Но ruGPT-3small осталась ruGPT-3small. Это модель, которая:
-
не понимает смысла, а только предсказывает слова;
-
не способна следовать сложным инструкциям;
-
галлюцинирует по определению, потому что её задача — генерировать правдоподобно, а не правдиво.
LoRA на маленькой модели не «чинит» архитектуру. Она лишь слегка смещает стиль и тематику, но не добавляет рассуждения, не учит честности, не убирает галлюцинации.
Рекомендации: как сделать настоящего AI-консультанта
🔹 Стратегия 1. RAG-first (для узких экспертных зон)
-
Использовать поиск по базе знаний (FAQ, документы, типовые расчёты).
-
Отвечать только если найден релевантный контекст.
-
Если контекста нет — задавать уточняющие вопросы или честно говорить: «У меня нет данных по этому вопросу, уточните у инженера».
Плюс: работает даже на слабой модели.
Минус: не отвечает на новые, нестандартные вопросы.
🔹 Стратегия 2. Сменить базовую модель
Перейти на современные opensource LLM уровня 7B+ с поддержкой русского языка:
-
Qwen-7B / 14B (хороший русский, есть квантованные версии)
-
Mistral-7B (дообученные версии Saiga, YandexGPT)
-
Llama-3-8B (есть русские адаптации)
-
Vikhr-Llama (специализированная русская сборка)
Как работать с тяжёлыми моделями на слабом железе:
-
Использовать квантование (GGUF, GPTQ) — модель в 4 бита весит 4–5 ГБ и работает на CPU с приемлемой скоростью.
-
Использовать GPU в облаке (Google Colab, RunPod, Yandex Cloud) для инференса.
🔹 Гибридный подход (оптимальный)
-
База: современная LLM 7–13B в квантованном виде (можно на CPU).
-
RAG-слой поверх неё — подмешиваем релевантные примеры из базы знаний.
-
Жёсткое правило: «Не выдумывай — либо бери из базы, либо уточняй».
Такой подход даёт:
-
экспертные ответы на типовые вопросы (через RAG);
-
способность рассуждать на новые темы (через сильную LLM);
-
честность и контролируемость.
Заключение
Наш эксперимент показал: дообучение маленькой модели — это тупиковый путь для создания серьёзного консультанта. Да, вы можете улучшить стиль, подогнать тематику, но галлюцинации и непонимание останутся.
Если вам нужен реальный AI-ассистент для бизнеса:
-
не экономьте на базовой модели;
-
используйте RAG как обязательный слой;
-
закладывайте ресурсы на GPU или квантование.
Мы прошли этот путь, получили бесценный опыт и теперь движемся дальше — к гибридной архитектуре на базе современных LLM.
Наш код и датасет открыты:
👉 https://github.com/PavelKoff2025/doobuchenie-fine-tuning-open-llm
P.S. Если вы тоже хотите приручить AI для своей ниши — пишите, обсудим. Инженерные системы, строительство, консалтинг — везде можно найти умное применение LLM. Главное — не повторяйте наших ошибок 🙂
Кейс 3
Бизнес-кейс: AI-агент для консультаций по инженерным системам загородных домов
Что делает AI-агент?
Автоматизирует первичные консультации по инженерным системам (отопление, вентиляция, водоснабжение, электрика). Отвечает на вопросы клиентов 24/7, собирает заявки и передает их в отдел продаж.
Демо: http://ai.pavelkarikoff.ru
Как это работает?
Под капотом
-
ChatGPT + GigaChat — система сама выбирает, какую нейросеть использовать. Если нет VPN или проблемы с доступом — автоматически переключается на российскую GigaChat. Клиент не замечает разницы.
-
RAG (Retrieval-Augmented Generation) — простыми словами: это “умная библиотека”. AI не выдумывает ответы, а сначала ищет информацию на вашем сайте и только потом отвечает. Это исключает ошибки и галлюцинации нейросети.
-
Парсер — раз в месяц автоматически сканирует сайт компании и обновляет базу знаний. Всё новое оборудование, цены, акции — AI узнает первым.
-
Ссылки на источник — при каждом ответе AI дает кликабельную ссылку на страницу сайта, откуда взята информация. Клиент видит, что ответ не выдуман.
Кто такие “Тимлид”, “Фронтенд” и “Бэкенд”?
Это три AI-агента, которые работают в связке:
| Агент | Задача |
| Тимлид | Распределяет задачи между агентами, следит за качеством ответов, логирует всё. |
| Фронтенд | Живет в чат-виджете на сайте. Общается с клиентом, задает уточняющие вопросы, собирает контактные данные. |
| Бэкенд | Обрабатывает запросы, ищет информацию в базе знаний (RAG), выбирает нужную LLM (ChatGPT/GigaChat), отправляет заявки в Telegram. |
Удобство для отдела продаж
Когда клиент оставляет заявку на консультацию с инженером:
-
AI-агент собирает имя, телефон, суть вопроса.
-
В Telegram-группу отдела продаж приходит готовое уведомление.
-
Менеджер видит: “Иван, отопление для дома 150м², ждет звонка”.

Все диалоги записываются — можно анализировать возражения, дорабатывать скрипты, контролировать качество.
Экономический эффект (ожидаемый)
| Показатель | До внедрения | После внедрения |
| Время ответа на заявку | 5-30 минут (в рабочее время) | 5 секунд (24/7) |
| Потерянные лиды (не дождались ответа) | 30-40% | <5% |
| Загрузка инженеров-консультантов | 100% (тратят время на типовые вопросы) | 30% (только сложные и финальные этапы) |
| Обработка заявок одним инженером в день | 10-15 | 30-40 (за счет AI-фильтрации) |
Финансовый эффект:
-
Экономия на 1-2 сотрудниках: 100 000–200 000 руб./мес.
-
Дополнительная прибыль от обработанных заявок в нерабочее время: +15–25% к конверсии.
Деплой
Проект развернут на VPS сервере (http://193.233.174.4/) для демонстрации работы.
Для демонстрации работы с голосовым вводом вопроса и прослушиванием ответа деплой реализован на https://ai.pavelkarikoff.ru
При внедрении у вас система может быть развернута:
-
На вашем сервере.
-
В облаке (Yandex Cloud, SberCloud и др.).
-
В контейнерах Docker (легко масштабируется).
Исходный код
Полное описание проекта, инструкции по запуску и документация:
https://github.com/Pavelkoff2025/AI-sale
Итог
AI-агент берет на себя 80% рутинных консультаций, работает без выходных, не требует VPN (благодаря GigaChat), всегда ссылается на источник, а менеджеры получают только горячих клиентов с уже понятным запросом.
Протестируйте сами: https://ai.pavelkarikoff.ru
Хотите, чтобы нейросети приносили вам реальные деньги, а не просто «интересные картинки»? Напишите мне в чат — проведу бесплатный аудит ваших процессов и покажу точки роста.