MarkTechPost→ оригинал

Google Gemini 3 Deep Think: новый рекорд в тестах на общий интеллект

Google анонсировала обновление Gemini 3 Deep Think, сфокусированное на науке и инженерии. Ключевым достижением стал результат 84,6% на бенчмарке ARC-AGI-2, кото

Google Gemini 3 Deep Think: новый рекорд в тестах на общий интеллект
Источник: MarkTechPost. Коллаж: Hamidun News.

Google пересекает новый рубеж в развитии искусственного интеллекта. Компания анонсировала обновление Gemini 3 Deep Think, которое показывает результат 84,6% на бенчмарке ARC-AGI-2 — тесте, который учёные рассматривают как последний серьёзный барьер перед достижением общего интеллекта. Это не просто очередное улучшение модели, а фундаментальный сдвиг в том, как искусственные нейросети решают сложные задачи. Вместо простой генерации текста система теперь использует режим глубокого рассуждения с внутренней верификацией, позволяя машине проверять собственную логику в реальном времени.

Чтобы понять значимость этого шага, стоит вспомнить, что произошло в индустрии за последние годы. Большие языковые модели вроде GPT и Claude блестяще справляются с генерацией текста, но часто спотыкаются на задачах, требующих многошагового логического вывода и верификации результатов. ARC-AGI-2 был специально разработан исследователями как тест, который не поддаётся простому масштабированию моделей — это набор задач на логику и абстрактное мышление, которые требуют именно рассуждения, а не просто предсказания следующего слова. Результат 84,6% означает, что Gemini 3 Deep Think решает четыре из пяти таких задач правильно, что раньше было невозможно даже для самых мощных систем.

Технически это достигнуто через новый механизм внутреннего рассуждения. Модель теперь не торопится с ответом, а проходит через несколько этапов размышления, проверяя каждый шаг логики перед тем, как сформулировать окончательный ответ. Это похоже на то, как человек-математик не просто называет ответ, а работает через задачу пошагово, проверяя каждое вычисление. Google встроила в модель способность к самопроверке, что радикально снижает вероятность логических ошибок. Этот подход применим не только к абстрактным головоломкам, но и к реальным научным и инженерным задачам, где требуется глубокий анализ и проверка гипотез.

Именно поэтому Google позиционирует это обновление как инструмент для науки и инженерии, а не для развлечения. Модель теперь способна помогать исследователям в проектировании сложных систем, верификации научных гипотез и решении инженерных проблем, которые требуют многоуровневого анализа. Это может ускорить разработку новых материалов, лекарств, архитектур микросхем и других сложных систем, где каждая ошибка стоит больших денег и времени.

Что это значит для будущего AGI — общего искусственного интеллекта? Результат 84,6% на ARC-AGI-2 — это не финальная линия, но чёткий сигнал того, что мы движемся не в направлении всё более мощных генераторов текста, а в сторону систем, способных к настоящему рассуждению. Это парадигма, которая отличается от того, что доминировал в последние несколько лет. Переход от масштабирования до триллионов параметров к внедрению механизмов верификации и пошагового рассуждения может оказаться именно тем, что нужно для дальнейшего прогресса.

Однако стоит быть осторожным с формулировками. Высокий результат на одном бенчмарке не означает, что AGI уже здесь. ARC-AGI-2 проверяет специфический тип интеллекта — логическое абстрактное мышление. Реальный общий интеллект потребует успехов на множестве других фронтов: понимание контекста, работа с неопределённостью, адаптация к новым ситуациям. Тем не менее, достижение Google показывает, что путь к этому становится более чётким. Модели учатся не только генерировать, но и думать, проверять и обосновывать.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…