Jiqizhixin (机器之心)→ оригинал

Ant Group enseigne aux robots la vie : une nouvelle base VLA dépasse Pi0.5

Пока все обсуждали чат-ботов, Ant Group тихо выкатила VLA-модель (Vision-Language-Action), которая по метрикам обошла хваленый Pi0.5 от Physical Intelligence. Э

Ant Group enseigne aux robots la vie : une nouvelle base VLA dépasse Pi0.5
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Пока западные венчурные капиталисты заваливают деньгами стартапы вроде Physical Intelligence, на горизонте появился игрок, которого там явно не ждали. Ant Group, компания, которую мы привыкли ассоциировать с платежами и финтехом, решила, что роботам тоже нужны мозги. И не просто мозги, а открытая VLA-модель (Vision-Language-Action), которая по многим параметрам оставляет позади текущего любимчика индустрии — Pi0.

5. Если вы думали, что битва за физический ИИ ограничится Кремниевой долиной, у меня для вас новости. Давайте сначала разберемся, что такое VLA.

Это не просто очередной чат-бот, который пишет стихи. Это попытка создать единую нейронную сеть, которая видит мир, понимает текстовые команды и, самое главное, знает, как двигать механическими «руками», чтобы выполнить задачу. Долгое время роботов учили каждой манипуляции отдельно, но VLA обещает универсальность.

Представьте, что вы даете роботу задачу «принеси мне ту красную кружку», и он не просто распознает объект, но и строит траекторию движения в реальном времени, учитывая препятствия. Именно в этой лиге сейчас играет Ant Group. Интрига здесь в том, что Pi0.

5 от Physical Intelligence считалась золотым стандартом открытых базовых моделей для робототехники. Она была своего рода GPT-3 для манипуляторов. Однако Ant Group заявляет, что их новая разработка превосходит Pi0.

5 по точности выполнения команд и адаптивности к новым условиям. Это серьезный удар по самолюбию американских инженеров. Китайская компания не просто скопировала архитектуру, она оптимизировала способ, которым модель связывает визуальные данные с физическими действиями, что позволило добиться более плавных и точных движений.

Почему это важно именно сейчас? Мы находимся на пороге бума гуманоидных роботов. Железо становится дешевле и доступнее, но главной проблемой остается софт — универсальный интеллект, который позволит роботу выйти из стерильной лаборатории на реальный склад или в жилую квартиру.

Ant Group делает ставку на открытость. Выпуская модель в open-source, они фактически приглашают тысячи разработчиков по всему миру тестировать и улучшать их код. Это классический ход: если не можешь победить за счет закрытых патентов, создай стандарт, которым будут пользоваться все.

Интересно наблюдать, как трансформируется сама Ant Group. После всех регуляторных встрясок в Китае компания ищет новые точки опоры, и глубокие технологии (DeepTech) кажутся идеальным убежищем. Робототехника — это не только хайп, но и огромный рынок автоматизации логистики, которой в Китае больше, чем где-либо еще.

Возможно, их VLA-модель изначально тренировалась на данных с реальных складов Alibaba, что дает ей огромное преимущество перед моделями, обученными в симуляциях. В этой истории есть еще один важный слой — геополитический. Пока США вводят санкции на чипы, Китай отвечает рывком в алгоритмах.

Открытая модель такого уровня сложности — это мощный инструмент влияния. Если завтра каждый второй стартап по производству роботов в Европе или Азии будет использовать базу от Ant Group, вопрос о том, чья экосистема победила, отпадет сам собой. Мы видим, как борьба за лидерство в ИИ смещается из текстовых чатов в физический мир.

Главное: Ant Group создала серьезный прецедент, выпустив модель, превосходящую западные аналоги в открытом доступе. Сможет ли Physical Intelligence или OpenAI ответить чем-то более впечатляющим, или лидерство в «мозгах для роботов» окончательно закрепится за Востоком?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…