ZDNet AI→ оригинал

Thomson Reuters lays out four rules for AI agents that businesses can trust

AI agents are increasingly entering real workflows, but trust in them depends not on model power but on process. Thomson Reuters recommends measuring quality th

◐ Слушать статью

AI-агенты быстро переходят из экспериментов в рабочие процессы, и вместе с этим у компаний появляется главный вопрос: как сделать их достаточно надёжными для реальных задач. В Thomson Reuters считают, что ответ не в магии моделей, а в дисциплине разработки, проверках и связке с уже работающими инструментами.

Как мерить успех

По словам CTO Thomson Reuters Labs Джоэла Хрона, первый шаг — заранее определить, что вообще считается хорошим результатом. Для агентных систем это сложнее, чем для обычного софта: недостаточно проверить, что ответ «похож на правильный». Нужно формально описать, из каких признаков складывается качественный результат, где агент может ошибаться, какие отклонения бизнес готов принимать и на каком этапе человеку нужно вмешаться.

В компании используют сразу несколько уровней оценки, чтобы не полагаться на одно число или один тестовый набор: публичные бенчмарки для ранней оценки новых моделей внутренние тесты с чёткими критериями качества ответа автоматические проверки для быстрого цикла разработки финальную оценку со стороны профильных экспертов Автоматизация помогает ускорять итерации, но финальное доверие всё равно должно проходить через людей. Хрон подчёркивает, что перед выпуском продукта команда хочет получить подтверждение от человеческих экспертов, а не только от метрик и автотестов. Для рынков, где ошибка стоит денег, времени или юридических рисков, такой подход выглядит не перестраховкой, а обязательным условием.

Иначе агент может показать хороший демо-результат, но провалиться в реальной среде, где важны нюансы и профессиональный контекст.

Общий язык команд

Второй вывод Thomson Reuters — агент нельзя проектировать отдельно от интерфейса и пользовательского опыта. Если компания хочет, чтобы сотрудник работал с агентом как с цифровым коллегой, у них должны быть общий язык, понятный интерфейс и прозрачная логика взаимодействия. Пользователь должен видеть не только итог, но и ход работы системы: какие шаги она делает, где запрашивает данные, когда обращается к инструментам и в какой момент ей нужна проверка человека.

Без этой прозрачности агент воспринимается как чёрный ящик, а не как помощник. Отсюда и практический совет: дизайнеры, продуктовые команды и data scientists должны работать не в соседних чатах, а буквально вместе. Хрон описывает это без романтики — нужно просто посадить дизайнеров рядом с дата-сайентистами и заставить их регулярно обсуждать, что происходит внутри агента.

Чем плотнее эта связка, тем быстрее рождается интерфейс, который не скрывает мышление системы, а делает его управляемым. Для бизнеса это ещё и защита от ложной автономности, когда красивый интерфейс маскирует нестабильную логику.

Инструменты и партнёры

Третий урок — не пытаться строить «всезнающего» агента, который умеет всё сам. В Thomson Reuters делают ставку на другой путь: разбирать уже существующие продукты и превращать их функции в проверенные инструменты, с которыми агент может работать. Если у компании есть десятки зрелых приложений, накопленных за годы, они становятся не обузой, а набором надёжных модулей для новой агентной архитектуры. Такой подход особенно важен сейчас, когда модели заметно прибавляют в генерации кода, исполнении планов и многошаговом рассуждении, но всё ещё не гарантируют предсказуемость сами по себе.

«Мы не в игре на 90%.

Мы в игре на 99% и 99,9%», — так Хрон описывает планку доверия для агентных продуктов. Из этого вытекает и четвёртый совет: учиться не только внутри компании. Thomson Reuters запустила Trust in AI Alliance вместе с Anthropic, AWS, Google Cloud и OpenAI, а также развивает партнёрство с Imperial College London. Фокус таких инициатив — объяснимость, прозрачность и те самые «последние девятки» точности, которые отделяют впечатляющий прототип от рабочего продукта. Для компаний это сигнал: агентный стек нельзя собирать в изоляции, если задача — не просто внедрить модную функцию, а довести систему до уровня, которому можно доверить реальные решения.

Что это значит Главная мысль статьи простая: бизнесу не стоит ждать мифического идеального агента.

Надёжные системы собираются из измеримых критериев качества, тесной работы продуктовых и технических команд, проверенных внутренних инструментов и внешнего обмена практиками. Победят не те компании, у которых агент звучит умнее всех, а те, у которых его поведение лучше всего проверено, понятнее для пользователя и глубже встроено в реальную операционную работу.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…