Habr AI→ оригинал

Raft muestra cómo las empresas pueden evaluar agentes de IA antes de implementar en flujos de trabajo

Raft examinó cómo las empresas pueden evaluar la confiabilidad de agentes de IA antes de su implementación. La idea clave es no enfocarse en demostraciones impr

Raft muestra cómo las empresas pueden evaluar agentes de IA antes de implementar en flujos de trabajo
Источник: Habr AI. Коллаж: Hamidun News.

Raft выпустила практический разбор того, как компаниям проверять надёжность AI-агентов до того, как доверять им реальные бизнес-процессы. Главная мысль статьи простая: агенту нельзя верить по демонстрации или среднему проценту успеха — его нужно регулярно прогонять через evals с чёткими критериями.

Почему доверия мало

По мере того как агентные системы переходят из экспериментов в рабочие сценарии, у бизнеса возникает вполне рациональный вопрос: что делать, если агент ошибается, нарушает правила или начинает действовать странно. С человеком можно разбирать инцидент, менять мотивацию и вводить контроль. С ИИ это не работает.

У модели нет собственных стимулов вести себя «правильно», поэтому доверие к ней нельзя строить на ощущениях, обещаниях вендора или одном удачном пилоте. Авторы предлагают смотреть на доверие как на повторяемость результата. Если система много раз получает похожие входные данные и стабильно выдаёт ожидаемый результат, ей можно поручать этот класс задач.

Если же каждое действие приходится перепроверять вручную, ценность автоматизации быстро исчезает. Поэтому evals здесь выступают не как дополнительная аналитика, а как базовый механизм допуска агента к работе.

Как собрать eval set

Отправная точка — ground truth set: набор реальных или максимально приближенных к реальности кейсов, где входные данные связаны с ожидаемым результатом. Обычно такой набор собирают из исторических задач, которые команда уже обрабатывала вручную. В статье отдельно подчёркивается, что для evals не нужны тысячи примеров, как для дообучения.

Важнее, чтобы каждый кейс был однозначным: два независимых эксперта должны одинаково ответить, прошёл агент проверку или нет. Типовой eval set состоит из нескольких слоёв: задачи с конкретными входными данными и критерием успеха тестового прогона агента с итоговым результатом одного или нескольких graders для разных аспектов качества транскрипта шагов: вызовов инструментов, промежуточных действий и логики маршрута В качестве примера Raft описывает агента поддержки интернет-магазина, который обрабатывает возвраты. Один кейс проверяет простой возврат в пределах 30 дней, другой — отказ по заявке вне политики, третий — неоднозначную ситуацию, где нельзя ни автоматически вернуть деньги, ни просто отказать без уточнений.

Такой дизайн показывает важную вещь: оценивать нужно не только конечный ответ, но и поведение по дороге к нему. Иногда лучший результат — не действие, а корректная эскалация на человека. Для самих проверок можно смешивать три подхода.

Детерминированные грейдеры подходят там, где важны точные сигналы вроде суммы возврата или вызова нужного инструмента. LLM-судьи удобны для оценки тона, полноты и ясности ответа. Люди нужны на старте, чтобы собрать эталонные данные и калибровать автоматических оценщиков, иначе система быстро начнёт мерить то, что удобно, а не то, что действительно важно бизнесу.

Какие метрики смотреть Отдельный акцент в статье — на том, что агентные системы недетерминированы.

Поэтому жёстко проверять каждый шаг бессмысленно: один и тот же хороший результат может быть достигнут разными маршрутами. Но маршрут всё равно важен, потому что он расходует время, токены и доступ к инструментам, а ещё может нарушать внутренние политики. Хороший eval должен отвечать сразу на два вопроса: корректен ли итог и был ли путь к нему разумным.

95% прохождения звучит здорово — пока ошибки не сидят во false positives.

Именно поэтому одного pass rate недостаточно. Для бинарных решений полезно смотреть на confusion matrix, precision, recall и F1, потому что разные типы ошибок стоят бизнесу по-разному. Агент, который слишком легко одобряет возвраты, создаёт одну категорию риска; агент, который массово отклоняет законные запросы, — совсем другую. Поверх этого авторы напоминают о типичных ловушках: законе Гудхарта, устаревании eval-набора и иллюзии «зелёного» дашборда, когда метрика выглядит нормально, а реальные жалобы пользователей растут.

Что это значит

Для компаний, которые хотят внедрять AI-агентов в поддержку, операции или разработку, главный вывод один: сначала нужно строить систему проверки, а уже потом масштабировать автоматизацию. Побеждают не те команды, у кого агент выглядит умнее на демо, а те, кто понимает цену его ошибок, умеет измерять качество по сценариям и регулярно обновляет evals вместе с продуктом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…