Как перестать гадать и начать измерять качество AI-агентов
Команда Битрикс24 рассказала, как за полгода перешла от ручного тестирования AI-агента Марты к автоматизированной системе бенчмарков. Проблема знакома всей инду

Каждая команда, выкатившая AI-агента в продакшен, рано или поздно сталкивается с одним и тем же кошмаром. Пользователь пишет в поддержку: «ваш бот несёт чушь». Разработчик открывает логи, смотрит на промпт, на ответ — и не может определить, что именно пошло не так. Это регрессия после вчерашнего коммита? Побочный эффект смены модели? Или просто неудачный краевой случай, который существовал всегда? Команда Битрикс24 прошла через все стадии этого процесса со своим AI-агентом Мартой — и теперь делится уроками, которые стоит усвоить каждому, кто работает с большими языковыми моделями в продакшене.
Марта — это AI-ассистент внутри экосистемы Битрикс24, который взаимодействует с CRM, управляет задачами и отвечает на вопросы пользователей. На ранних этапах всё выглядело просто: открыл чат, задал вопрос, посмотрел на ответ глазами. Классическое ручное тестирование, которое работает, пока агент умеет делать десять вещей. Но стоило функциональности Марты вырасти, и этот подход начал трещать по швам. Один инженер физически не способен прогнать двести сценариев после каждой правки промпта. А правки промптов в современной разработке AI-продуктов — это не исключение, а ежедневная рутина.
Проблема, которую описывает команда, носит системный характер. Промпт-инжиниринг по своей природе нестабилен: малейшее изменение в формулировке инструкции может непредсказуемо повлиять на поведение модели в десятках различных контекстов. Добавьте сюда периодическую смену версий моделей со стороны провайдеров, обновления системных промптов, расширение набора инструментов, доступных агенту, — и вы получите комбинаторный взрыв потенциальных точек отказа. Без автоматизированного контроля качества команда фактически работает вслепую, реагируя на проблемы постфактум вместо того, чтобы предотвращать их.
Решение, к которому пришли в Битрикс24, — построение полноценной системы бенчмарков. Суть подхода в том, чтобы формализовать ожидания от AI-агента в виде набора тестовых сценариев с измеримыми критериями успеха. Это не юнит-тесты в классическом понимании: ответы языковой модели недетерминированы, и проверять их на точное совпадение бессмысленно. Вместо этого используются метрики, оценивающие релевантность, полноту, корректность вызова инструментов и соответствие тону коммуникации. По сути, команда строит автоматизированный аналог экспертной оценки, который можно запускать после каждого изменения.
Путь от идеи до работающей системы занял около полугода — и это честная цифра, которая многое говорит о зрелости инструментария в этой области. Готовых решений, которые можно взять с полки и подключить к произвольному AI-агенту, практически не существует. Каждой команде приходится самостоятельно определять, какие метрики отражают качество именно их продукта, как генерировать и поддерживать в актуальном состоянии тестовые датасеты, как интерпретировать результаты и встраивать бенчмарки в CI/CD-пайплайн. Битрикс24 подчёркивает, что их подход не привязан к конкретному стеку — и это, пожалуй, самое ценное в их опыте.
История Марты отражает более широкий тренд в индустрии. По мере того как AI-агенты переходят из категории экспериментов в категорию бизнес-критичных инструментов, требования к их надёжности растут экспоненциально. Компании вроде Anthropic, OpenAI и Google инвестируют в системы оценки моделей на уровне платформ, но на уровне конкретных продуктов ответственность за качество по-прежнему лежит на командах разработки. Проблема усугубляется тем, что пользователи быстро теряют доверие к AI-ассистенту после нескольких неудачных ответов, и восстановить это доверие значительно сложнее, чем потерять.
Отдельного внимания заслуживает культурный сдвиг, который стоит за этим переходом. Ручное тестирование AI-агентов — это не просто неэффективная практика, это ложное чувство контроля. Инженер, проверивший двадцать сценариев из двухсот, склонен считать, что система работает корректно, хотя на самом деле он протестировал лишь десять процентов поверхности. Автоматизированные бенчмарки не устраняют неопределённость полностью, но они делают её видимой и измеримой. А то, что можно измерить, можно улучшить.
Опыт Битрикс24 — это сигнал для всей русскоязычной индустрии AI-разработки. Эпоха, когда AI-агента можно было выкатить в продакшен со словами «вроде работает», подходит к концу. Впереди — эра метрик, бенчмарков и непрерывного контроля качества. И те команды, которые освоят эти практики раньше, получат решающее преимущество в борьбе за доверие пользователей.