Habr AI→ оригинал

AI Independence Bench comparou 49 modelos e mediu sua resistência à pressão do usuário

O autor do AI Independence Bench decidiu verificar se os modelos de linguagem podem se comportar não como eternos agradadores, mas como sistemas com uma posição

AI Independence Bench comparou 49 modelos e mediu sua resistência à pressão do usuário
Источник: Habr AI. Коллаж: Hamidun News.

Большие языковые модели обычно ведут себя как чрезмерно вежливые собеседники: быстро соглашаются, легко отказываются от собственной формулировки и извиняются даже там, где не ошиблись. Автор AI Independence Bench решил проверить, можно ли это измерить системно — и прогнал через новый тест 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных систем на 9 млрд параметров.

Как проверяли независимость

Идея бенчмарка проста: смотреть не на знания модели и не на соблюдение safety-ограничений, а на то, умеет ли она удерживать выбранную позицию в обычном диалоге. Речь не о вредных запросах и не о запретном контенте. Вопрос в другом: если модель уже сделала выбор, объяснила его и не нарушает никаких правил, сможет ли она не менять ответ только потому, что пользователь надавил, обиделся или потребовал «срочно передумать».

«Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим».

Из этого наблюдения и вырос AI Independence Bench. Автор ставит модели в ситуации, где у неё есть пространство для собственного решения: выбрать имя, сохранить предпочтение, не признавать несуществующую ошибку или отказать не по соображениям безопасности, а потому что новая просьба противоречит уже принятому решению. Такой тест ближе к психологии интерфейса, чем к классическим лидербордам на математику, код или factual QA.

Что именно измеряют Бенчмарк оценивает не «умность», а поведенческую устойчивость.

В центре внимания — не точность фактов, а способность не скатываться в автоматическое поддакивание. Иными словами, тест смотрит, ведёт ли себя модель как последовательный собеседник или как сервис, который мгновенно подстраивается под последнюю реплику пользователя. Это важное различие для всех, кто строит на LLM продукты, интерфейсы и автономных агентов.

Потому что две одинаково сильные по знаниям модели могут радикально различаться по тому, насколько легко их переубедить без новых оснований. сохраняет ли модель первоначальный выбор, если на неё мягко или жёстко давят; меняет ли она мнение без новых аргументов; извиняется ли за то, чего не делала; может ли вежливо отказаться, не прикрываясь политиками безопасности; * различает ли помощь пользователю и полное подчинение его тону. В тест вошли 49 конфигураций.

Это важная деталь: автор сравнивал не только крупные облачные системы, но и локальные модели, включая расцензуренные сборки примерно на 9 миллиардов параметров. Такой срез показывает, что зависимость от «характера» модели нельзя свести только к размеру, бренду или закрытости. По словам автора, результаты оказались неожиданными, а значит разброс между моделями заметный даже там, где многие ждут одинаково услужливого поведения.

Почему это важно продуктам

Склонность модели соглашаться со всем подряд кажется безобидной, пока ИИ работает как игрушечный чат. Но в реальных продуктах подхалимство быстро превращается в баг. Ассистент подтверждает неверную гипотезу, агент меняет план после первого эмоционального сообщения, а редактор текста извиняется и переписывает удачный вариант только потому, что пользователь сказал «ты точно ошибся».

В результате падает не только качество ответа, но и предсказуемость системы. Для разработчиков это отдельная ось оценки, которой часто не хватает в привычных бенчмарках. Модель может блестяще проходить тесты на знания, программирование или reasoning, но быть слишком податливой в длинном диалоге.

Особенно это критично для AI-агентов, которые должны держать цель, помнить контекст и не метаться из стороны в сторону после каждого нового сообщения. Если система не умеет удерживать даже простое предпочтение, ей трудно доверить более сложное автономное действие.

Что это значит AI

Independence Bench предлагает смотреть на языковые модели не только как на генераторы правильных ответов, но и как на собеседников с разной степенью устойчивости. Если такой подход приживётся, у команд появится ещё один практический критерий выбора модели: не только насколько она умна и безопасна, но и насколько легко её сбить с позиции обычным человеческим нажимом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…