Jiqizhixin (机器之心)→ оригинал

Emu2 في Nature: عثر العلماء الصينيون على رمز موحد للواقع

Пекинская академия ИИ (BAAI) опубликовала в Nature статью о модели Emu2. Главный прорыв — перевод всей генерации на рельсы авторегрессии для текста, фото и виде

Emu2 في Nature: عثر العلماء الصينيون على رمز موحد للواقع
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Долгое время современный искусственный интеллект напоминал высокотехнологичного монстра Франкенштейна. Мы привыкли к тому, что у нейросетей есть разные «органы» для разных чувств: языковые модели вроде GPT блестяще справлялись с текстом через авторегрессию, предсказывая следующее слово, а генераторы изображений вроде Midjourney или Stable Diffusion жили в мире диффузии, вытравливая порядок из хаоса случайных пикселей. Это разделение казалось фундаментальным и незыблемым, как разница между логикой и воображением.

Однако исследователи из Пекинской академии искусственного интеллекта (BAAI/) решили, что этот архитектурный дуализм пора оставить в прошлом. Их новая работа по мультимодальной модели Emu2, только что опубликованная в журнале Nature, делает дерзкое заявление: для понимания и созидания этого мира достаточно одного-единственного алгоритмического принципа. Суть прорыва кроется в унификации.

Ученые смогли доказать, что любая информация — будь то философский трактат, видео с бегущим котом или схема микрочипа — может быть сведена к единому формату токенов. В системе Emu2 картинка больше не является набором пикселей в привычном понимании. Она превращается в последовательность «визуальных слов», которые нейросеть учится предсказывать точно так же, как мы предсказываем окончание этой фразы.

Этот подход, называемый авторегрессионным обучением, долгое время считался слишком громоздким для графики. Но китайские инженеры на примере модели с 37 миллиардами параметров показали, что при правильном подходе авторегрессия не просто догоняет диффузию по качеству, но и обгоняет её по гибкости. Зачем вообще нужно было ломать то, что и так неплохо работало?

Проблема нынешних систем в их «швах». Когда вы пытаетесь подружить текстовый мозг с визуальными глазами, вам приходится строить сложные мосты-переходники, на которых неизбежно теряется смысл и контекст. Emu2 же обладает врожденной мультимодальностью.

Она не переводит с языка картинок на язык слов — она изначально думает на языке, где пиксель и буква равноправны. Это позволяет модели демонстрировать пугающую эффективность в обучении «в контексте» (in-context learning). Вы можете показать ей пару примеров того, как нужно редактировать фото, и она мгновенно схватит логику задачи без всякого дообучения.

Это именно та магия, которая когда-то сделала GPT-3 мировой сенсацией, но теперь она распространилась на всё визуальное пространство. Контекст этого события невозможно игнорировать. Публикация в Nature — это высший знак качества в научном мире, и то, что она досталась именно BAAI, говорит о многом.

Пока западные гиганты вроде OpenAI или Google соревнуются в закрытости своих лабораторий, китайские исследователи методично выстраивают теоретическую базу для следующего поколения ИИ. Emu2 фактически подводит черту под эпохой специализированных инструментов. Мы вступаем в эру универсальных движков предсказания реальности.

Если всё вокруг — это последовательность данных, то победит тот, чья модель лучше всего угадывает следующий элемент этой последовательности, независимо от его природы. Конечно, переход на чистую авторегрессию требует колоссальных вычислительных мощностей. Это игра для тех, у кого есть неограниченный доступ к GPU и бесконечное терпение при настройке гиперпараметров.

Но история технологий учит нас: элегантная универсальность всегда побеждает специализированные костыли в долгосрочной перспективе. Мы уже видели, как трансформеры «съели» рекуррентные сети в лингвистике. Теперь мы наблюдаем, как они начинают поглощать мир компьютерного зрения.

Это не просто очередная модель, это манифест новой архитектурной чистоты, который заставит многих пересмотреть свои дорожные карты на ближайшие пару лет. Главное: Пекин официально закрепил за собой статус лидера в фундаментальной теории ИИ, доказав, что будущее за едиными авторегрессионными моделями. Означает ли это, что диффузионным нейросетям пора на свалку истории, или они найдут свою нишу в узкоспециализированных задачах?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…