Пионер генерации изображений замахнулся на революцию в текстовом AI
Стефано Эрмон — один из создателей технологии диффузионных моделей, которая лежит в основе генераторов изображений вроде Stable Diffusion и DALL-E, — представил

Когда учёный, чьи идеи определили облик целой индустрии генеративных медиа, решает переключиться на текстовый AI, рынку стоит обратить внимание. Стефано Эрмон, профессор Стэнфордского университета и один из ключевых исследователей в области диффузионных моделей, через свой стартап Inception представил технологию, которая обещает существенно ускорить работу текстовых AI-систем — от чат-ботов до корпоративных ассистентов.
Чтобы понять масштаб этого шага, нужно вспомнить, кто такой Эрмон и почему его имя весит так много. Именно его исследования в области score-based генеративных моделей стали одним из фундаментов, на которых выросли Stable Diffusion, DALL-E и десятки других сервисов для создания изображений и видео. Диффузионные модели — та самая технология, которая позволяет превращать текстовое описание в фотореалистичную картинку — во многом обязаны своим существованием работам Эрмона и его коллег. Это не просто академический вклад: речь идёт о технологии, которая генерирует миллиарды долларов выручки для компаний по всему миру.
Теперь Эрмон нацелился на территорию, которую прочно удерживают OpenAI, Google, Anthropic и Meta — обработку естественного языка. Его стартап Inception, о котором до недавнего времени было известно немного, представил технологию, способную ускорить генерацию текста в языковых моделях. Детали пока раскрыты не полностью, однако, по данным Bloomberg, речь идёт о принципиально новом подходе к архитектуре инференса — той части работы модели, которая отвечает за выдачу ответа пользователю в реальном времени.
Проблема скорости инференса — одна из центральных в индустрии больших языковых моделей. Каждый раз, когда вы задаёте вопрос ChatGPT или Claude, модель генерирует ответ токен за токеном, и этот процесс требует огромных вычислительных ресурсов. Компании тратят миллиарды долларов на GPU-кластеры, чтобы обеспечить приемлемую скорость отклика для сотен миллионов пользователей. Любая технология, способная сократить время генерации даже на десятки процентов, имеет колоссальную экономическую ценность. Именно поэтому вокруг оптимизации инференса сейчас сосредоточены усилия десятков стартапов и исследовательских лабораторий — от Groq с их специализированными чипами до различных программных решений для квантизации и спекулятивного декодирования.
То, что Эрмон привносит в эту гонку опыт из мира диффузионных моделей, может оказаться неожиданным преимуществом. Диффузионные модели работают принципиально иначе, чем авторегрессионные трансформеры: вместо последовательной генерации токенов они итеративно уточняют результат из шума. Исследователи уже несколько лет экспериментируют с переносом диффузионных принципов на генерацию текста, и некоторые результаты выглядят многообещающе. Если Inception удалось найти способ применить эти идеи для практического ускорения текстовых моделей, это может стать настоящим прорывом — не эволюционным улучшением, а сменой парадигмы.
Впрочем, скептицизм тоже уместен. Рынок AI-стартапов переполнен амбициозными заявлениями, и далеко не все из них выдерживают проверку масштабом. Одно дело — показать впечатляющий результат в лабораторных условиях, и совсем другое — развернуть технологию для миллионов пользователей с сохранением качества ответов. Крупные игроки вроде OpenAI и Google располагают не только мощнейшей инфраструктурой, но и гигантскими командами инженеров, которые годами оттачивают свои системы. Конкурировать с ними на их территории — задача совершенно иного порядка, чем публикация научной статьи.
Тем не менее репутация Эрмона и его послужной список делают Inception одним из наиболее интересных стартапов в текущем ландшафте. Рынок инфраструктуры для AI-инференса оценивается в десятки миллиардов долларов и стремительно растёт. Если технология Inception действительно работает, у компании есть несколько стратегических путей: лицензирование крупным провайдерам, создание собственного API-сервиса или, что тоже вероятно, поглощение одним из технологических гигантов.
История Inception — это ещё и отражение более широкого тренда: границы между разными областями генеративного AI размываются. Идеи, рождённые в мире изображений, мигрируют в текст, и наоборот. Мультимодальность перестаёт быть просто маркетинговым термином и становится инженерной реальностью. Если учёный, изменивший генерацию изображений, сможет столь же радикально повлиять на обработку текста, это станет лучшим доказательством того, что AI-индустрия ещё далека от зрелости — и самые интересные прорывы, возможно, впереди.