О чём статья:Кейс о том, как мы в Soft Skills Lab делали AI‑агенты для EdTech‑продукта:Почему OpenAI Assistants не подошёл для сложных сценариевКакие проблемы вО чём статья:Кейс о том, как мы в Soft Skills Lab делали AI‑агенты для EdTech‑продукта:Почему OpenAI Assistants не подошёл для сложных сценариевКакие проблемы в

Почему OpenAI Assistants не подошёл для сложных AI-агентов

2026/02/06 19:26
7м. чтение

О чём статья:

Кейс о том, как мы в Soft Skills Lab делали AI‑агенты для EdTech‑продукта:

  • Почему OpenAI Assistants не подошёл для сложных сценариев

  • Какие проблемы возникли со своим бэкендом

  • Зачем понадобилось делать свою платформу для управления агентами

Если вы интегрируете AI в продукт и думаете, какой путь выбрать — этот опыт может быть полезен.


Запустить AI-агента на OpenAI Assistants — легко. Мы в Soft Skills Lab так и сделали: создали 20 AI-тренажёров для переговоров. Всё работало стабильно, инфраструктура OpenAI — огонь.

Но когда мы начали усложнять сценарии — упёрлись в стену.

Нужно явно управлять памятью агента? Нельзя. Условная логика на середине диалога? Костыли. Переключить модель на другую? Переписывать интеграцию. Понять, почему агент дал странный ответ? Логов практически нет.

Мы поняли: для сложных продуктовых сценариев нужна не просто стабильность, а операционный контроль. Вот как мы пришли к этому выводу (и что сделали дальше).

Первая попытка - OpenAI Assistants

Начали с OpenAI Assistants — быстрый старт, стабильная инфраструктура. Для простых сценариев работает отлично.

Но потом мы захотели разработать упражнение "Тестирование навыков": агент задаёт вопросы, анализирует ответы, оценивает компетенции. И тут началась беда...

Проблемы с гибкостью:

1. Условная логика в зависимости от ответа

В тестировании навыков очень важно применять разную логику проверки в зависимости от того, что отвечает человек.
Например: если человек ответил А — задать уточняющий вопрос, если Б — перейти к следующему блоку, если В — дать подсказку и переспросить.
В Assistants это либо через functions, либо вообще нереально реализовать явно.

2. Контроль над памятью


Агент должен был запоминать паттерн ответов: если человек 3 раза подряд ошибся в одной категории навыков — это сигнал для углублённой проверки.
В Assistants память работает автоматически через threads — удобно, но ты не контролируешь, ЧТО именно агент запомнил и КАК это использует. Иногда он вытаскивал из контекста не те данные, и логика ломалась.

3. Работает как чёрный ящик

Когда агент поставил неожиданную оценку или пропустил важный паттерн — хочется понять почему.
Но в Assistants видишь только финальный результат. Нет детальных логов — система работает как чёрный ящик.
Для дебага сложной логики тестирования это проблема.

Итог по OpenAI Assistants — крутой инструмент для быстрого старта. Но когда нужна явная условная логика, контроль над памятью и детальная аналитика каждого шага — упираешься в ограничения.

Попыкта 2 - свой конструктор упражнений

Решили делать свой бэкенд: FastAPI, свои промпты, полный контроль.

Плюс: можем делать любую логику, никаких ограничений. Инфраструктура стабильная.

И тут появились проблемы...

1. Дебаг превращается в квест

Агент дал странную оценку в тестировании. Хочу понять почему — иду к разработчикам.

Они смотрят логи на сервере, разбираются что на каком шаге произошло, ищут где именно агент сделал не то.

На разбор одного странного случая уходило от часа до нескольких часов работы команды.

2. Смена модели = боль

Захотели протестировать Claude вместо GPT-4 — это менять интеграцию, тестировать, выкатывать. Каждая смена модели — риск что-то сломать.

3. Привязка к провайдеру

Даже делая свой бэкенд, мы фактически привязались к OpenAI API.
Когда захотели попробовать GigaChat или DeepSeek — поняли, что это недели работы на рефакторинг.

В какой-то момент я понял: мы тратим 40-50% времени не на новые упражнения, а на поддержку существующих, дебаг, мелкие фиксы.

У нас не было единой системы: логи в одном месте, настройки промптов в коде, аналитика диалогов — вообще нигде.

Попытка 3 - Agent Builder от OpenAI

Увидели Agent Builder от OpenAI — вау, это же решает наши проблемы! Визуальный конструктор, можно настраивать логику без кода, итерации быстрые.

Уже почти начали переделывать упражнения на Agent Builder...

Но...

Потом я задал себе вопрос: а что если завтра мы поймём, что для конкретного упражнения Gemini справляется лучше, чем GPT-4?

Или что DeepSeek даёт такое же качество, но в 5 раз дешевле на определённых задачах?

Agent Builder решал проблему гибкости, но создавал новую: мы бы навсегда застряли на моделях OpenAI.

Все наши упражнения были бы в ловушке одного провайдера. Миграция = переписывание всех 20+ тренажёров с нуля.

Прозрение:

Мы поняли: разные задачи требуют разных моделей. Где-то GPT-4 лучший, где-то Gemini справляется круче, где-то можно сэкономить на DeepSeek без потери качества.

Нам нужна гибкость Agent Builder, но без привязки к одному провайдеру и его моделям.

Assemblix — операционная система для AI-агентов

Собрали список того, что РЕАЛЬНО нужно для поддержки AI-агентов в продакшене:

  1. Визуальный конструктор для гибкой логики (как Agent Builder)

  2. Прозрачность каждого вызова — детальные логи

  3. Независимость от провайдера — выбор лучшей модели для каждой задачи

  4. Единая система управления всеми агентами

  5. Память между агентами и сессиями

Сначала сделали для себя в SSL. Потом поняли: эта проблема не только у нас.

Попытка 4 (надеюсь последняя):

1. Визуальный конструктор без привязки к провайдеру

Собираем упражнения визуально: ноды, условия, промпты — как в Agent Builder, но на нашей инфраструктуре.

Наше первое упражнение
Наше первое упражнение

Тот же тренажёр "Тестирование навыков": если ответ А — уточняющий вопрос (нода), если Б — следующий блок (переход), если В — подсказка (условие). Всё это визуально, без кода.

Меняем логику прямо в интерфейсе, без релизов и деплоев.

2. Видим каждый шаг агента

Видим каждый шаг каждого агента: что он ответил, сколько времени заняло, какая логика сработала.

Агент дал странную оценку? Открываем лог этой сессии, видим весь путь: какие условия сработали, что ответила модель на каждом шаге.

Дебаг странного случая — несколько минут вместо нескольких часов работы команды.

3. Выбор модели для каждой задачи

OpenAI, Claude, GigaChat, DeepSeek, Gemini — выбираем модель под конкретное упражнение.
Где-то GPT-4 показывает лучшее качество, где-то Gemini справляется круче с конкретной логикой, где-то DeepSeek даёт такое же качество дешевле.

Переключение между провайдерами — это буквально выбор из списка в интерфейсе. Всё из коробки, без технических сложностей.

4. Общая память между агентами

У нас есть цепочка упражнений: сначала тестирование навыков, потом практические задания на основе результатов теста.

Раньше передавали данные между упражнениями вручную. Теперь просто передаём client_id — оба агента автоматически видят всю историю взаимодействий.

Память работает из коробки.

5. Единая операционная панель

Все агенты, все упражнения, все сессии пользователей — в одном месте.

Можем отфильтровать: показать все сессии конкретного ученика, или все упражнения с определённой моделью, или все диалоги за последнюю неделю.

Это операционный контроль над всей AI-инфраструктурой.

К чему пришли?

1. Дебаг перестал быть болью разработчиков

За последний месяц к команде разработки ни разу не пришли с просьбой разобраться, почему упражнение работает не так.

Раньше это была регулярная боль: разработчик отвлекался от задач, копался в логах, искал проблему.

Теперь методологи и тренеры сами открывают логи в Assemblix, видят каждый шаг агента и находят проблему без разработчиков.

2. Скорость создания упражнений

Раньше: новое упражнение = несколько недель разработки.

Сейчас: несколько дней активной работы в конструкторе.

Основную работу делают методологи, разработчики нужны только для финальной интеграции.

3. Лучшая модель для каждой задачи

Мы перестали использовать одну модель для всего.

Часть логики делегировали на OpenAI (генерация ответов пользователю), часть на Gemini (анализ ответов пользователя) — каждая модель там, где она показывает лучший результат.

Раньше такое переключение заняло бы недели рефакторинга. Сейчас — выбор модели в dropdown.

4. Масштаб

На Assemblix мы создали около 7 больших упражнений, которые активно интегрируем в наши курсы.

(В следующей статье расскажу конкретный кейс с деталями — как одно из упражнений работает под капотом.)

Что дальше?

Мы выкатили Assemblix как продукт для команд, которые делают AI-агенты в продакшене.

В следующей статье расскажу конкретный кейс: как работает одно из наших упражнений под капотом, с какими проблемами столкнулись и как решили.


Полезные ссылки:

  • Мой личный ТГ: https://t.me/nmamizerov — пишу про развитие продукта и совмещение работы в найме с личными проектами

  • Новости Assemblix: https://t.me/assemblix — обновления платформы и кейсы использования

Источник

Возможности рынка
Логотип LAB
LAB Курс (LAB)
$0.1301
$0.1301$0.1301
+0.95%
USD
График цены LAB (LAB) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно