Habr AI→ оригинал

جمعت Beeline Cloud اختبارات AI معيارية غير معتادة: من غرف الهروب إلى لعب دور "الإنسان"

يتم اختبار نماذج LLM بشكل متزايد ليس عبر مسائل مدرسية، بل عبر سيناريوهات غريبة من الحياة الواقعية. وتتضمن قائمة Beeline Cloud غرف هروب تضم عناصر زائدة، ومعيار S

◐ Слушать статью

Классические бенчмарки для LLM часто измеряют знание фактов и умение решать задачи по шаблону, но все хуже объясняют, как модель поведет себя в реальной среде. Поэтому исследователи и компании все чаще придумывают странные, почти игровые тесты: от побега из квест-комнаты до попытки убедительно сыграть человека среди других ботов.

Квесты и ловушки Один из самых показательных примеров — бенчмарк инженера Джэмина Хана.

В нем модели оказываются в текстовой версии квест-комнаты: им описывают пространство, доступные предметы и задачу, которую нужно решить с учетом ограничений физического мира. Например, достать шарик для пинг-понга из узкой трубки или вытащить банку с паролем из тесного отверстия. Такой формат бьет не по энциклопедическим знаниям, а по способности учитывать контекст, свойства объектов и порядок действий.

Смысл еще и в том, что рядом с полезными вещами лежат отвлекающие. Модель должна не просто предложить красивое рассуждение, а отделить рабочий инструмент от мусора. В тестах GPT-4 и Claude 3.

5 Haiku иногда понимали идею решения, но путались в деталях: пытались использовать ненужную линейку, неверно выстраивали последовательность шагов или добавляли действия, без которых можно обойтись. Это хороший пример того, как LLM спотыкаются не на логике вообще, а на прикладной логике.

Атаки и дизайн Другой вектор — безопасность.

Бенчмарк SCAM от 1Password не спрашивает у модели, похоже ли письмо на фишинг, а имитирует реальную рабочую нагрузку: входящие письма, подозрительные ссылки, поддельные страницы входа и социальную инженерию. В одном из показательных примеров Gemini 2.5 Flash за десять секунд отдает пароль на фальшивом сайте.

Для авторов это важнее любой академической метрики: агент должен не просто классифицировать угрозу, а не попадаться на нее в действии. физическое рассуждение в ограниченном пространстве устойчивость к фишингу и промпт-инъекциям качество интерфейсов и итогового пользовательского опыта поведение модели в группе, где нужно казаться человеком SCAM включает 30 сценариев из девяти категорий угроз, а лидеры февральского рейтинга, Claude Opus 4.6 и GPT-5.

2, распознавали опасные ситуации с вероятностью 92% и 81%. После усиления системным промптом показатели выросли до 98% и 97%. Рядом с этим существует и совсем другой тип проверки — Design Arena, где модели соревнуются в создании интерфейсов, игр и визуализаций, а победителя выбирают люди вслепую по системе Эло.

Здесь тестируется не один правильный ответ, а качество готового продукта. Такой подход удобен там, где формальная метрика плохо работает. В одном из турниров модели просили сделать браузерный шутер про пришельцев: одна сборка вообще не запускалась, другая выдала полноценную игру с прогрессией сложности и апгрейдами.

Позже исследователи использовали площадку, чтобы сверить результаты собственного бенчмарка OpenDesign с оценками сообщества, и получили совпадение примерно в 60–80% случаев. Это не идеальная точность, но уже полезная калибровка для задач, где вкус и удобство нельзя свести к одному числу.

Маскировка под человека Есть и совсем экспериментальные форматы.

В одной социальной игре двадцать одна языковая модель по очереди пыталась вычислить, кто из участников человек, хотя на самом деле живых людей в комнате не было вообще. Каждая сессия собиралась из шести случайно выбранных моделей, а победителями считались две последние, которых не выгнали голосованием. Получился не обычный бенчмарк на знания, а тест на социальную адаптацию, стиль общения и умение не выдавать свою машинную природу.

Каждая система ИИ пыталась доказать, что именно она — существо из плоти и крови.

Лучше всех в таком странном турнире выступила Claude Sonnet 4.5: она победила в 53% раундов. Следом шла Gemini 2.0 Flash с 49,2%, а Claude 3 Haiku оказалась внизу таблицы с 6,7%. Исследователи даже попросили Gemini 2.5 Pro разобрать ответы соперников и подсказать, как эффективнее маскироваться под человека. Совет сработал не для всех: заметный прирост получила GPT-4o, которая стала выигрывать примерно на 12% чаще, а у Claude 3 Haiku результаты, наоборот, просели. Вывод неприятный для индустрии: модель может звучать убедительно, но все равно вести себя неестественно в живом диалоге.

Что это значит

Необычные бенчмарки полезны тем, что проверяют LLM там, где классические тесты молчат: в среде с физическими ограничениями, угрозами, субъективной оценкой и социальным давлением. Но и они не безупречны: у самих наборов заданий бывают двусмысленные формулировки и спорные ключи. Поэтому лучший сценарий — не искать один главный тест, а собирать набор проверок под конкретный продукт и смотреть на поведение модели в нескольких режимах сразу.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…