MarkTechPost→ оригинал

كيفية قياس الذكاء الحقيقي: المعايير الرئيسية لوكلاء الذكاء الاصطناعي

تواجه صناعة الذكاء الاصطناعي أزمة تقييم خطيرة: المعايير القديمة لم تعد تعكس الواقع. المقاييس الشهيرة مثل MMLU تتفوق في قياس معرفة نموذج اللغة، لكنها عديمة الفائ

كيفية قياس الذكاء الحقيقي: المعايير الرئيسية لوكلاء الذكاء الاصطناعي
Источник: MarkTechPost. Коллаж: Hamidun News.

Долгое время индустрия искусственного интеллекта жила в удобной, но иллюзорной реальности статичных рейтингов. Когда выходила новая языковая модель, ее создатели с гордостью демонстрировали высокие баллы в таких бенчмарках, как MMLU или тесты на перплексию. Эти цифры показывали, что нейросеть прочитала весь интернет и способна блестяще сдавать стандартизированные экзамены, отвечая на вопросы с несколькими вариантами ответов. Однако по мере того, как отрасль переходит от создания эрудированных чат-ботов к разработке автономных ИИ-агентов, этот подход потерпел полный крах. Выяснилось, что способность модели процитировать энциклопедию не имеет почти ничего общего с ее умением самостоятельно забронировать авиабилет, найти и исправить ошибку в реальном программном коде или обработать сложный запрос недовольного клиента.

Проблема традиционных метрик заключается в их оторванности от реального применения. Статичные бенчмарки оценивают искусственный интеллект в изолированном вакууме: модели дают один текстовый промпт, и она выдает один ответ. В реальном же мире работа агента представляет собой непрерывный цикл взаимодействия с меняющейся средой. Агенту необходимо проанализировать текущую ситуацию, составить план действий, применить внешние инструменты вроде браузера или консоли, оценить результат своего шага и, что самое важное, исправить собственную ошибку, если что-то пошло не так. Оценка такого многоступенчатого поведения требует совершенно новой методологии тестирования, которая переносит фокус с измерения энциклопедических знаний на оценку сложного агентного мышления.

Именно поэтому исследовательское сообщество начало активно разрабатывать и внедрять динамические среды тестирования, которые достоверно имитируют реальные рабочие процессы. Вместо того чтобы просить модель написать изолированную функцию на Python, новые бенчмарки загружают агента в виртуальную операционную систему с доступом к реальному репозиторию на GitHub. Перед искусственным интеллектом ставят задачу устранить баг, описанный пользователем в комментариях. Для этого агент должен самостоятельно изучить тысячи строк незнакомого кода, найти причину проблемы, внести изменения, запустить локальные тесты и убедиться, что его вмешательство не сломало другие архитектурные компоненты программы. Подобный подход позволяет измерить истинную ценность искусственного интеллекта для разработчиков и крупного бизнеса.

Аналогичная революция происходит и в оценке способности моделей работать с веб-интерфейсами. Современные тесты погружают агентов в симулированные копии интернет-магазинов, систем бронирования билетов или корпоративных панелей управления. Модели получают высокоуровневую задачу, например, оформить возврат конкретного товара или найти оптимальный рейс с жестко заданными параметрами. Агент должен взаимодействовать с элементами веб-страницы, нажимать кнопки, заполнять формы и переходить по ссылкам, на лету адаптируясь к изменениям интерфейса. Если система сталкивается с неожиданным всплывающим окном или ошибкой загрузки страницы, она должна продемонстрировать способность к самокоррекции и поиску обходных путей.

Смещение фокуса на агентные бенчмарки имеет колоссальные последствия для всей технологической индустрии. Корпоративный сектор откровенно устал от красивых презентаций языковых моделей, которые демонстрируют феноменальный уровень генерации связного текста, но оказываются абсолютно беспомощными при попытке автоматизировать внутренние бизнес-процессы. Новые стандарты оценки начинают напрямую влиять на распределение венчурного капитала и выбор технологических подрядчиков. Компании инвестируют исключительно в те платформы, чьи агенты показывают измеримую эффективность в динамических тестах, а не гонятся за триллионами параметров ради абстрактных баллов на устаревших лидербордах.

В конечном итоге, эволюция методов тестирования определяет вектор развития самого искусственного интеллекта. То, что инженеры могут точно измерить, они могут целенаправленно улучшить. Переход от статичных тестов к симуляции реального мира означает, что следующее поколение базовых моделей будет проектироваться не для поддержания светской беседы, а для выполнения конкретных задач. Эра, когда интеллект машины оценивался исключительно по ее словарному запасу, безвозвратно уходит в прошлое. Наступает время строгой практической полезности, где главным критерием успеха становится способность алгоритма взять на себя рутинную работу и довести начатое дело до конца.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…