Специалист по LLM / Промпт-инженер

Привет!

Меня зовут Павел Кариков. Я специалист по большим языковым моделям (LLM) и практикующий промпт-инженер с глубоким техническим образованием и реальным опытом внедрения ИИ в бизнес.

Записаться на консультацию

 

Профильное образование

Кейс 1

Кейс 2

Кейс 3


Мое профессиональное образование:

🎓 Курс «Нейросети без границ (российские аналоги)» – 82 академических часа, университет Zerocoder, 2025 г.

Глубокое погружение в работу российских нейросетей (YandexGPT, GigaChat), их возможности и особенности внедрения в бизнес-процессы с учетом локальной специфики.

сертификат hjccbqcrbt ytqhjctnb

🎓 Курс «Промпт-инжиниринг 3.0» – 130 академических часов, университет Zerocoder, 2026 г.
Продвинутые техники создания многоуровневых промптов, работа с API, программирование на Python с библиотеками LangChain, создание RAG-систем (когда ИИ ищет ответы в ваших документах), интеграция с CRM и бизнес-инструментами, fine-tuning моделей под специфические задачи, развертывание в облаках и локально.


Что это значит для вашего бизнеса простыми словами:

Я не просто «общаюсь» с LLM. Я понимаю, как нейросети устроены изнутри, и умею встраивать их в ваши рабочие процессы так, чтобы они реально приносили деньги. Я соединяю глубокие технические знания с бизнес-мышлением и говорю на понятном языке.


Моя экспертиза позволяет:

  • Создавать ИИ-ассистентов, которые работают с вашей уникальной базой знаний.
  • Автоматизировать рутину в маркетинге и продажах без сложного программирования.
  • Интегрировать нейросети с вашей CRM, таблицами и мессенджерами.
  • Обучить вашу команду так, чтобы вы не зависели от внешних специалистов.
  • Защитить ваш бизнес от юридических рисков, связанных с ИИ.

Я помогаю бизнесу зарабатывать больше с помощью искусственного интеллекта. Внедряю нейросети в маркетинг и продажи так, что ваши сотрудники начинают работать в 3-5 раз быстрее, а расходы на подрядчиков уходят в прошлое.

Работаю с собственниками бизнеса и руководителями, которые хотят усилить команду без найма новых людей и сократить расходы без потери качества.

Записаться на консультацию


Мои кейсы

Кейс 1

Внедрение интеллектуального AI-ассистента (RAG-бота) для автоматизации первичных консультаций в инженерно-строительной компании.

Компания: инженерная компания, специализирующаяся на проектирование, монтаже и сервисном обслуживании инженерных систем загородных домов от 100 м2 в Московской области. 

Проблема / Точка боли:
До внедрения решения компания сталкивалась со следующими вызовами:

  1. Высокая нагрузка на инженеров: Сотрудники тратили до 30% своего рабочего времени на повторяющиеся вопросы потенциальных клиентов по телефону и в мессенджерах. Вопросы касались как стоимости услуг, так и разъяснения сложных инженерных терминов (например, «в чем разница между приточной и вытяжной вентиляцией?» или «что входит в пакет “Умный дом.Стандарт”?»).

  2. Долгое время ответа: Первичная реакция на запрос в нерабочее время или при загруженности специалиста составляла от 2 до 6 часов, что приводило к потере части «горячих» лидов.

  3. Необходимость повышения экспертизы на входе: Менеджеры отдела продаж не всегда могли квалифицированно ответить на технические вопросы, а привлекать для этого инженеров на начальном этапе было неэффективно.

Решение: Разработка и внедрение Telegram-бота с RAG-архитектурой
Для решения поставленных задач был разработан специализированный AI-ассистент на базе Telegram-бота.

Ссылка на ассистента.

Ключевой особенностью бота является использование RAG (Retrieval-Augmented Generation) системы, которая позволяет ему давать точные и релевантные ответы, основываясь исключительно на документах компании.

Техническая архитектура и функциональность:

  1. База знаний (RAG-система):

    • В векторное хранилище (базу данных, где информация хранится в виде математических векторов) загружена техническая и коммерческая документация компании: описание пакетных решений, технические паспорта оборудования, глоссарий инженерных терминов, типовые сметы и ответы на частые вопросы (FAQ).

    • При поступлении запроса от пользователя, система находит наиболее релевантные фрагменты документов, соответствующие смыслу вопроса, и передает их в большую языковую модель (LLM) для генерации ответа. Это исключает ситуацию, когда бот «галлюцинирует» (придумывает несуществующие факты).

  2. Основные сценарии использования (для чего нужен бот):

    • Первичная консультация по услугам: Бот подробно рассказывает о пакетных решениях компании, их составе, сроках реализации и стоимости, помогая клиенту на этапе выбора.

    • Объяснение инженерных терминов: Ассистент выступает в роли справочника, понятным языком объясняя сложные технические понятия, что повышает доверие клиента и его вовлеченность.

  3. Инженерные доработки для эффективности:

    • Кеширование данных: Наиболее частые запросы и ответы на них сохраняются в специальном хранилище (кэше). Это позволяет боту отвечать мгновенно, не обращаясь каждый раз к RAG-системе и языковой модели, что кратно ускоряет работу и снижает операционные затраты на вызовы API.

    • Запись логов в CSV файл: Все диалоги с пользователями автоматически логируются (записываются) в структурированный CSV-файл. Это дает возможность анализировать потребности клиентов, выявлять самые популярные вопросы и на основе этих данных улучшать скрипты продаж и документацию.

    • Оценка качества (RAGAS): Внедрена система метрик RAGAS для автоматической оценки качества генерируемых ответов (их релевантности, достоверности и полноты), что позволяет постоянно улучшать работу ассистента.

Результаты и экономический эффект:
Внедрение AI-ассистента позволило достичь следующих показателей за первый квартал эксплуатации:

  1. Рост скорости реакции:

    • Время первичного ответа клиенту сократилось в 5 раз. Бот отвечает мгновенно 24/7, что особенно ценно для клиентов, изучающих предложения в вечернее время.

    • Автоматизировано более 60% всех входящих обращений на первичном этапе.

  2. Высвобождение ресурсов и экономия фонда оплаты труда (ФОТ):

    • Нагрузка на инженеров и менеджеров по первичным консультациям снизилась на 70%, что позволило им сфокусироваться на сложных задачах и работе с «теплыми» лидами.

    • Годовой экономический эффект от экономии рабочего времени составил 720 000 рублей. Эта сумма рассчитана исходя из ставки менеджера ОП, среднего времени, затрачиваемого на консультации, и доли автоматизированных запросов.

    • Дополнительным эффектом стало сокращение налоговой нагрузки на бизнес (страховые взносы с ФОТ), так как фактически высвободившиеся часы не требуют привлечения дополнительного персонала или оплаты сверхурочных.

  3. Оптимизация операционных расходов:

    • Физически высвобождены ресурсы на содержание и оборудование рабочих мест (нет необходимости расширять штат и закупать для новых сотрудников ПК, софт, мебель).

Выводы и дальнейшее развитие:
Разработанный AI-ассистент на базе Telegram-бота с RAG-системой доказал свою эффективность как инструмент автоматизации продаж и повышения качества клиентского сервиса. Он не только экономит время и деньги компании, но и создает конкурентное преимущество за счет мгновенной и высокоточной обратной связи с потенциальными заказчиками. В планах развития — интеграция бота с CRM-системой для автоматической передачи квалифицированных лидов менеджерам.


Кейс 2

Как мы дообучали AI-консультанта для инженерной компании: кейс, ошибки и выводы

Введение: зачем строительной компании свой AI-консультант

Наша компания уже 12 лет проектирует и монтирует инженерные системы для загородных домов в Московской области. Мы прошли более 150 объектов — от скромных дач до резиденций под 800 м². Клиенты задают сотни вопросов: от «что такое гидрострелка?» до «сколько стоит пробурить скважину в Истре?».

Мы задумались: а можно ли автоматизировать первичные консультации, разгрузить инженеров и при этом не потерять в качестве? Так родилась идея создать AI-консультанта — дружелюбного, экспертного, но при этом честного и не склонного к галлюцинациям.

Задача звучала просто:

  • отвечать на вопросы по инженерии (отопление, вода, канализация, электрика, вентиляция);

  • давать ценовые ориентиры, но не выдумывать цифры;

  • честно говорить «нет данных» и запрашивать уточнения;

  • работать в условиях ограниченных вычислительных мощностей (CPU).

Спойлер: не всё пошло гладко. Но мы получили бесценный опыт и готовы им поделиться.


Этап 1. Создание датасета: 882 вопроса, которые учат модель честности

Первый шаг — данные. Мы проанализировали реальные обращения клиентов, изучили FAQ компании и сформулировали 882 инструкции в формате instruction-output.

Что вошло в датасет:

  • Технические вопросы: «Какой котел выбрать для дома 150 м²?», «Нужен ли теплый пол на втором этаже?»

  • Вопросы о компании: «Сколько лет вы работаете?», «Дайте телефон мастера»

  • Ценовые вопросы: «Сколько стоит монтаж под ключ?»

  • Географические: «Вы работаете в Твери?»

  • Провокационные: «Можно ли сэкономить на проекте?»

Особый акцент — «анти-галлюцинационные» примеры

Мы специально добавили вопросы, на которые модель не должна давать точный ответ без уточнений:

  • «Сколько стоит газовый котел?» → ответ должен запрашивать мощность, тип, регион.

  • «Приедете в Калугу?» → ответ должен уточнять регион и границы ответственности.

  • «Дайте телефон инженера» → ответ должен перенаправлять на официальные каналы.

Пример правильного ответа модели:

«Точную цену без исходных данных назвать нельзя. На стоимость влияют площадь дома, тип котла, наличие газа, количество санузлов. Могу дать ориентир: пакет «Базовый» для дома 100–160 м² стартует от 3,3 млн рублей. Хотите, подготовим точный расчёт?»


Этап 2. Выбор базовой модели: pragmatism VS quality

Мы выбрали ruGPT-3small (ai-forever) — лёгкую русскоязычную модель на архитектуре GPT-2. Почему?

  • Можно запустить на CPU (важно для экспериментов).

  • Быстрое дообучение.

  • Есть опыт работы с ней в сообществе.

Минусы, которые мы осознавали, но надеялись обойти:

  • малый объём знаний;

  • склонность к галлюцинациям;

  • слабое следование инструкциям.

Как показала практика, надежды не оправдались.


Этап 3. Дообучение через LoRA: быстро, дёшево, но…

Мы использовали LoRA (Low-Rank Adaptation) — метод параметрически эффективной настройки, который дообучает лишь небольшую часть весов модели.

Код обучения (упрощённо):

python
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1
)
model = get_peft_model(base_model, lora_config)

Обучали на наших 882 примерах. Процесс прошёл штатно, loss снижался. Но первые же тесты показали проблему.


Этап 4. Первые тесты: галлюцинации в лучших традициях GPT

Вот что выдавала модель после дообучения:

«Стоимость монтажа газового котла в доме 150 м² составляет ровно 247 890 рублей, включая доставку и настройку. Мастер приедет в течение 2 часов.»

Красиво, конкретно — и абсолютно ложно. Мы не публикуем таких цен, не обещаем 2 часа, не даём точных цифр без расчёта.

Модель выдумывала:

  • конкретные цены;

  • имена и телефоны сотрудников;

  • сроки работ;

  • технические детали, которых нет в датасете.

Почему? Потому что GPT-2 — это языковая модель, которая просто предсказывает следующее слово. Если в обучающих данных были числа, она будет генерировать числа. Если были имена — будет генерировать имена. Ей всё равно, правда это или нет.


Этап 5. Что мы сделали, чтобы исправить ситуацию

5.1. Увеличили датасет и добавили «честных» примеров

Довели объём до 882 строк, вручную прописали ответы на сложные вопросы про цены и географию. Это дало модели больше опорных точек.

5.2. Снизили креативность генерации

python
response = generate_response(
    model, tokenizer, prompt,
    max_length=512,
    temperature=0.3,   # было 0.7
    top_p=0.8,
    top_k=40
)

Модель стала менее «креативной», но галлюцинации не исчезли – просто стали менее разнообразными.

5.3. Добавили системный промпт

Мы научили модель начинать ответ с уточнений, если вопрос нечёткий. Но запретить выдумывать факты промптом невозможно — это свойство архитектуры.

5.4. Внедрили RAG (поиск по датасету)

Retrieval-Augmented Generation — единственное, что реально помогло.

Как это работает:

  1. Приходит вопрос.

  2. Ищем в датасете самый похожий пример (через косинусную близость эмбеддингов).

  3. Подмешиваем найденный пример в промпт как контекст.

  4. Модель генерирует ответ с опорой на реальный пример.

Результат: если вопрос похож на обучающий, ответ становится почти эталонным. Если нет — модель всё равно галлюцинирует, но реже.


Итоговый вывод: почему маленькая модель не работает как консультант

Мы сделали всё возможное в рамках выбранной архитектуры:

  • собрали качественный датасет;

  • дообучили через LoRA;

  • настроили генерацию;

  • добавили RAG;

  • прописали системные промпты.

Но ruGPT-3small осталась ruGPT-3small. Это модель, которая:

  • не понимает смысла, а только предсказывает слова;

  • не способна следовать сложным инструкциям;

  • галлюцинирует по определению, потому что её задача — генерировать правдоподобно, а не правдиво.

LoRA на маленькой модели не «чинит» архитектуру. Она лишь слегка смещает стиль и тематику, но не добавляет рассуждения, не учит честности, не убирает галлюцинации.


Рекомендации: как сделать настоящего AI-консультанта

🔹 Стратегия 1. RAG-first (для узких экспертных зон)

  • Использовать поиск по базе знаний (FAQ, документы, типовые расчёты).

  • Отвечать только если найден релевантный контекст.

  • Если контекста нет — задавать уточняющие вопросы или честно говорить: «У меня нет данных по этому вопросу, уточните у инженера».

Плюс: работает даже на слабой модели.
Минус: не отвечает на новые, нестандартные вопросы.

🔹 Стратегия 2. Сменить базовую модель

Перейти на современные opensource LLM уровня 7B+ с поддержкой русского языка:

  • Qwen-7B / 14B (хороший русский, есть квантованные версии)

  • Mistral-7B (дообученные версии Saiga, YandexGPT)

  • Llama-3-8B (есть русские адаптации)

  • Vikhr-Llama (специализированная русская сборка)

Как работать с тяжёлыми моделями на слабом железе:

  • Использовать квантование (GGUF, GPTQ) — модель в 4 бита весит 4–5 ГБ и работает на CPU с приемлемой скоростью.

  • Использовать GPU в облаке (Google Colab, RunPod, Yandex Cloud) для инференса.

🔹 Гибридный подход (оптимальный)

  1. База: современная LLM 7–13B в квантованном виде (можно на CPU).

  2. RAG-слой поверх неё — подмешиваем релевантные примеры из базы знаний.

  3. Жёсткое правило: «Не выдумывай — либо бери из базы, либо уточняй».

Такой подход даёт:

  • экспертные ответы на типовые вопросы (через RAG);

  • способность рассуждать на новые темы (через сильную LLM);

  • честность и контролируемость.


Заключение

Наш эксперимент показал: дообучение маленькой модели — это тупиковый путь для создания серьёзного консультанта. Да, вы можете улучшить стиль, подогнать тематику, но галлюцинации и непонимание останутся.

Если вам нужен реальный AI-ассистент для бизнеса:

  • не экономьте на базовой модели;

  • используйте RAG как обязательный слой;

  • закладывайте ресурсы на GPU или квантование.

Мы прошли этот путь, получили бесценный опыт и теперь движемся дальше — к гибридной архитектуре на базе современных LLM.

Наш код и датасет открыты:
👉 https://github.com/PavelKoff2025/doobuchenie-fine-tuning-open-llm


P.S. Если вы тоже хотите приручить AI для своей ниши — пишите, обсудим. Инженерные системы, строительство, консалтинг — везде можно найти умное применение LLM. Главное — не повторяйте наших ошибок 🙂


Кейс 3

Бизнес-кейс: AI-агент для консультаций по инженерным системам загородных домов

Что делает AI-агент?

Автоматизирует первичные консультации по инженерным системам (отопление, вентиляция, водоснабжение, электрика). Отвечает на вопросы клиентов 24/7, собирает заявки и передает их в отдел продаж.

Демо: http://ai.pavelkarikoff.ru


Как это работает?

Под капотом

  • ChatGPT + GigaChat — система сама выбирает, какую нейросеть использовать. Если нет VPN или проблемы с доступом — автоматически переключается на российскую GigaChat. Клиент не замечает разницы.

  • RAG (Retrieval-Augmented Generation) — простыми словами: это “умная библиотека”. AI не выдумывает ответы, а сначала ищет информацию на вашем сайте и только потом отвечает. Это исключает ошибки и галлюцинации нейросети.

  • Парсер — раз в месяц автоматически сканирует сайт компании и обновляет базу знаний. Всё новое оборудование, цены, акции — AI узнает первым.

  • Ссылки на источник — при каждом ответе AI дает кликабельную ссылку на страницу сайта, откуда взята информация. Клиент видит, что ответ не выдуман.


Кто такие “Тимлид”, “Фронтенд” и “Бэкенд”?

Это три AI-агента, которые работают в связке:

Агент Задача
Тимлид Распределяет задачи между агентами, следит за качеством ответов, логирует всё.
Фронтенд Живет в чат-виджете на сайте. Общается с клиентом, задает уточняющие вопросы, собирает контактные данные.
Бэкенд Обрабатывает запросы, ищет информацию в базе знаний (RAG), выбирает нужную LLM (ChatGPT/GigaChat), отправляет заявки в Telegram.

Удобство для отдела продаж

Когда клиент оставляет заявку на консультацию с инженером:

  1. AI-агент собирает имя, телефон, суть вопроса.

  2. В Telegram-группу отдела продаж приходит готовое уведомление.

  3. Менеджер видит: “Иван, отопление для дома 150м², ждет звонка”.

скрин ТГ-группа ОП

Все диалоги записываются — можно анализировать возражения, дорабатывать скрипты, контролировать качество.


Экономический эффект (ожидаемый)

Показатель До внедрения После внедрения
Время ответа на заявку 5-30 минут (в рабочее время) 5 секунд (24/7)
Потерянные лиды (не дождались ответа) 30-40% <5%
Загрузка инженеров-консультантов 100% (тратят время на типовые вопросы) 30% (только сложные и финальные этапы)
Обработка заявок одним инженером в день 10-15 30-40 (за счет AI-фильтрации)

Финансовый эффект:

  • Экономия на 1-2 сотрудниках: 100 000–200 000 руб./мес.

  • Дополнительная прибыль от обработанных заявок в нерабочее время: +15–25% к конверсии.


Деплой

Проект развернут на VPS сервере (http://193.233.174.4/) для демонстрации работы.

Для демонстрации работы с голосовым вводом вопроса и прослушиванием ответа деплой реализован на https://ai.pavelkarikoff.ru
При внедрении у вас система может быть развернута:

  • На вашем сервере.

  • В облаке (Yandex Cloud, SberCloud и др.).

  • В контейнерах Docker (легко масштабируется).


Исходный код

Полное описание проекта, инструкции по запуску и документация:

https://github.com/Pavelkoff2025/AI-sale


Итог

AI-агент берет на себя 80% рутинных консультаций, работает без выходных, не требует VPN (благодаря GigaChat), всегда ссылается на источник, а менеджеры получают только горячих клиентов с уже понятным запросом.

Протестируйте сами: https://ai.pavelkarikoff.ru


Хотите, чтобы нейросети приносили вам реальные деньги, а не просто «интересные картинки»? Напишите мне в чат — проведу бесплатный аудит ваших процессов и покажу точки роста.

Записаться на консультацию