Yuan 3.0 Ultra: триллион параметров при рекордной эффективности
YuanLab AI выпустила Yuan 3.0 Ultra — открытую мультимодальную модель на архитектуре Mixture-of-Experts с триллионом параметров. При этом в каждый момент активи

Гонка за триллионными моделями вступает в новую фазу — и теперь главным мерилом становится не размер, а умение им распорядиться. Китайская лаборатория YuanLab AI представила Yuan 3.0 Ultra, открытую мультимодальную модель на архитектуре Mixture-of-Experts, которая оперирует триллионом параметров, но активирует в каждый момент лишь 68,8 миллиарда. За сухими цифрами стоит принципиальный сдвиг в философии построения больших языковых моделей: вместо наращивания вычислительной мощности «в лоб» разработчики делают ставку на хирургическую точность в использовании ресурсов.
Чтобы понять масштаб заявления, нужен контекст. Архитектура Mixture-of-Experts — не новость. Её использует Google в Gemini, она лежит в основе Mixtral от Mistral AI, а по ряду утечек — и в GPT-4 от OpenAI. Суть подхода в том, что модель состоит из множества «экспертных» подсетей, и для обработки каждого конкретного запроса активируется лишь небольшая их часть. Это позволяет иметь огромную ёмкость знаний без необходимости прогонять каждый токен через все параметры. Yuan 3.0 Ultra доводит эту идею до логического предела: из триллиона параметров одновременно работают менее семи процентов. Для сравнения, у Mixtral 8x7B соотношение активных и общих параметров было значительно менее агрессивным.
Особенно примечательны заявленные показатели эффективности. По данным YuanLab AI, общее число параметров модели сокращено на 33,3% по сравнению с аналогичными по возможностям архитектурами, а эффективность предобучения выросла на 49%. Это означает, что для достижения сопоставимого качества ответов требуется значительно меньше вычислительных ресурсов и времени на обучение. В эпоху, когда стоимость обучения одной флагманской модели измеряется десятками и сотнями миллионов долларов, а доступ к кластерам GPU остаётся узким горлышком для большинства компаний, такой прирост эффективности — не просто техническое достижение, а экономический аргумент.
Мультимодальность Yuan 3.0 Ultra — ещё один важный штрих. Модель позиционируется как способная работать не только с текстом, но и с другими типами данных, что делает её пригодной для широкого спектра корпоративных задач — от анализа документов с изображениями до сложных сценариев, требующих понимания контекста из разных модальностей. Подробности архитектурных решений, обеспечивающих мультимодальность, пока раскрыты не полностью, но сам факт интеграции этих возможностей в MoE-модель триллионного масштаба говорит о зрелости подхода.
Решение сделать модель открытой заслуживает отдельного внимания. Китайские AI-лаборатории в последние полтора года последовательно наращивают присутствие в открытом сообществе: DeepSeek, Qwen от Alibaba, Yi от 01.AI — все они выпускают модели с открытыми весами, создавая мощную альтернативу закрытым западным системам. Yuan 3.0 Ultra вписывается в этот тренд, но поднимает планку: триллионная MoE-модель с открытым доступом — это вызов не только для коммерческих конкурентов, но и для всей экосистемы открытого AI. Вопрос в том, смогут ли исследователи и компании за пределами крупнейших облачных провайдеров реально развернуть и использовать модель такого масштаба. Даже с учётом того, что активных параметров «всего» 68,8 миллиарда, инференс триллионной MoE-модели требует серьёзной инфраструктуры для хранения и маршрутизации между экспертами.
Для индустрии Yuan 3.0 Ultra — это ещё одно подтверждение того, что MoE становится доминирующей архитектурой для моделей следующего поколения. Плотные трансформеры, где каждый параметр активен при каждом вызове, всё больше выглядят как расточительный подход прошлой эры. Одновременно модель обостряет конкуренцию между китайскими и американскими лабораториями: если заявленные показатели эффективности подтвердятся независимыми бенчмарками, это станет серьёзным аргументом в пользу того, что технологическое лидерство в AI перестало быть монополией Кремниевой долины.
Впрочем, к громким заявлениям стоит относиться с профессиональным скепсисом. Пока не опубликованы результаты на стандартных бенчмарках в сравнении с GPT-4o, Claude 3.5, Gemini Ultra и другими флагманами, говорить о «непревзойдённой эффективности» преждевременно. Настоящая проверка Yuan 3.0 Ultra начнётся, когда сообщество получит доступ к весам и сможет провести независимую оценку. Именно тогда станет понятно, является ли эта модель реальным прорывом или очередным амбициозным, но переоценённым релизом в перегретой гонке за масштабом.