Gemini 3 и блеф: почему нейросети теперь играют в покер
Эпоха скучных тестов MMLU подходит к концу. Google расширяет платформу Game Arena, добавляя туда покер и игру «Оборотень» (аналог «Мафии»). Это не просто забава

Пора признать очевидное: традиционные бенчмарки для нейросетей умирают. Когда модель показывает 90% точности в тесте MMLU, мы уже не знаем, поумнела ли она или просто случайно вызубрила ответы из обучающей выборки. Индустрия отчаянно ищет способы проверить «живой» интеллект, и Google решила, что лучший способ сделать это — отправить ИИ за игровой стол. Расширение платформы Game Arena новыми дисциплинами вроде покера и «Оборотня» выглядит как попытка наконец-то вытащить модели из стерильных условий лабораторий в хаос социальных взаимодействий.
История отношений ИИ и игр всегда была мерилом прогресса. Сначала был Deep Blue, который победил Каспарова грубой силой вычислений. Потом пришел AlphaGo, показавший интуицию там, где вариантов перебора больше, чем атомов во вселенной. Но шахматы и го — это игры с полной информацией. Вы видите всё, что видит противник. Покер и «Оборотень» — совсем другая лига. Здесь нужно учитывать скрытые карты, блефовать и, что самое важное, строить модель психики оппонента. Если Gemini 3 Pro сможет убедить группу людей, что она — мирный житель, будучи при этом «волком», это скажет о её когнитивных способностях больше, чем любой академический тест.
Текущие результаты в Game Arena показывают, что семейство Gemini 3 чувствует себя в этой среде как рыба в воде. Модели Pro и Flash уже возглавили шахматный лидерборд, обойдя конкурентов в способности планировать на много ходов вперед. Но шахматы для современных LLM — это уже решенная задача. Настоящий вызов начнется сейчас, когда им придется сталкиваться с иррациональностью человеческого поведения в покере. Здесь недостаточно просто считать вероятности выпадения нужной карты. Нужно понимать, почему противник внезапно повысил ставку: у него действительно флеш-рояль или он просто надеется, что вы испугаетесь?
Почему это важно для нас с вами, а не только для любителей азартных игр? Дело в том, что навыки, необходимые для победы в «Оборотне», напрямую транслируются в реальный мир. Переговоры о контрактах, дипломатия, управление персоналом — всё это игры с неполной информацией и элементами блефа. Если Google удастся натренировать модели, которые эффективно справляются с такими задачами, мы получим не просто чат-ботов, а полноценных агентов-переговорщиков. Это новый уровень автономии, где ИИ понимает не только текст запроса, но и скрытые мотивы того, кто этот запрос написал.
Конечно, возникает вопрос этики. Если мы учим нейросеть быть убедительным лжецом в игре, как мы заставим её быть абсолютно честной в финансовых отчетах или юридических консультациях? Грань между «стратегическим маневром» и прямой дезинформацией очень тонка. Google пока не дает прямых ответов, фокусируясь на технических достижениях. Однако само присутствие Gemini 3 на вершине игровых рейтингов говорит о том, что архитектура моделей стала достаточно гибкой, чтобы адаптироваться к правилам на ходу, не теряя при этом в производительности.
В ближайшее время мы увидим, как другие игроки рынка — OpenAI и Anthropic — будут вынуждены принять этот вызов. Эпоха статичных таблиц с цифрами заканчивается. Наступает время арен, где интеллект доказывается в действии. И если ваш следующий личный помощник подозрительно легко убедит вас купить именно эту подписку, вспомните, что, возможно, он просто очень хорошо натренировался в покер по ночам на серверах Google.
Главное: Google переводит оценку ИИ из плоскости сухих знаний в плоскость социального интеллекта. Сможет ли Gemini 3 переблефовать человека — это главный вопрос года.