Beeline Cloud compiled unusual AI benchmarks: from escape rooms to playing "human"
LLMs are increasingly tested not with school-style problems, but with odd real-world scenarios. Beeline Cloud's selection includes escape rooms with extra objec
Классические бенчмарки для LLM часто измеряют знание фактов и умение решать задачи по шаблону, но все хуже объясняют, как модель поведет себя в реальной среде. Поэтому исследователи и компании все чаще придумывают странные, почти игровые тесты: от побега из квест-комнаты до попытки убедительно сыграть человека среди других ботов.
Квесты и ловушки Один из самых показательных примеров — бенчмарк инженера Джэмина Хана.
В нем модели оказываются в текстовой версии квест-комнаты: им описывают пространство, доступные предметы и задачу, которую нужно решить с учетом ограничений физического мира. Например, достать шарик для пинг-понга из узкой трубки или вытащить банку с паролем из тесного отверстия. Такой формат бьет не по энциклопедическим знаниям, а по способности учитывать контекст, свойства объектов и порядок действий.
Смысл еще и в том, что рядом с полезными вещами лежат отвлекающие. Модель должна не просто предложить красивое рассуждение, а отделить рабочий инструмент от мусора. В тестах GPT-4 и Claude 3.
5 Haiku иногда понимали идею решения, но путались в деталях: пытались использовать ненужную линейку, неверно выстраивали последовательность шагов или добавляли действия, без которых можно обойтись. Это хороший пример того, как LLM спотыкаются не на логике вообще, а на прикладной логике.
Атаки и дизайн Другой вектор — безопасность.
Бенчмарк SCAM от 1Password не спрашивает у модели, похоже ли письмо на фишинг, а имитирует реальную рабочую нагрузку: входящие письма, подозрительные ссылки, поддельные страницы входа и социальную инженерию. В одном из показательных примеров Gemini 2.5 Flash за десять секунд отдает пароль на фальшивом сайте.
Для авторов это важнее любой академической метрики: агент должен не просто классифицировать угрозу, а не попадаться на нее в действии. физическое рассуждение в ограниченном пространстве устойчивость к фишингу и промпт-инъекциям качество интерфейсов и итогового пользовательского опыта поведение модели в группе, где нужно казаться человеком SCAM включает 30 сценариев из девяти категорий угроз, а лидеры февральского рейтинга, Claude Opus 4.6 и GPT-5.
2, распознавали опасные ситуации с вероятностью 92% и 81%. После усиления системным промптом показатели выросли до 98% и 97%. Рядом с этим существует и совсем другой тип проверки — Design Arena, где модели соревнуются в создании интерфейсов, игр и визуализаций, а победителя выбирают люди вслепую по системе Эло.
Здесь тестируется не один правильный ответ, а качество готового продукта. Такой подход удобен там, где формальная метрика плохо работает. В одном из турниров модели просили сделать браузерный шутер про пришельцев: одна сборка вообще не запускалась, другая выдала полноценную игру с прогрессией сложности и апгрейдами.
Позже исследователи использовали площадку, чтобы сверить результаты собственного бенчмарка OpenDesign с оценками сообщества, и получили совпадение примерно в 60–80% случаев. Это не идеальная точность, но уже полезная калибровка для задач, где вкус и удобство нельзя свести к одному числу.
Маскировка под человека Есть и совсем экспериментальные форматы.
В одной социальной игре двадцать одна языковая модель по очереди пыталась вычислить, кто из участников человек, хотя на самом деле живых людей в комнате не было вообще. Каждая сессия собиралась из шести случайно выбранных моделей, а победителями считались две последние, которых не выгнали голосованием. Получился не обычный бенчмарк на знания, а тест на социальную адаптацию, стиль общения и умение не выдавать свою машинную природу.
Каждая система ИИ пыталась доказать, что именно она — существо из плоти и крови.
Лучше всех в таком странном турнире выступила Claude Sonnet 4.5: она победила в 53% раундов. Следом шла Gemini 2.0 Flash с 49,2%, а Claude 3 Haiku оказалась внизу таблицы с 6,7%. Исследователи даже попросили Gemini 2.5 Pro разобрать ответы соперников и подсказать, как эффективнее маскироваться под человека. Совет сработал не для всех: заметный прирост получила GPT-4o, которая стала выигрывать примерно на 12% чаще, а у Claude 3 Haiku результаты, наоборот, просели. Вывод неприятный для индустрии: модель может звучать убедительно, но все равно вести себя неестественно в живом диалоге.
Что это значит
Необычные бенчмарки полезны тем, что проверяют LLM там, где классические тесты молчат: в среде с физическими ограничениями, угрозами, субъективной оценкой и социальным давлением. Но и они не безупречны: у самих наборов заданий бывают двусмысленные формулировки и спорные ключи. Поэтому лучший сценарий — не искать один главный тест, а собирать набор проверок под конкретный продукт и смотреть на поведение модели в нескольких режимах сразу.