LingBot-VLA: Ant Group enseña a los robots a entender el mundo sin palabras innecesarias
Китайская компания Lingbo (дочка Ant Group) выложила в открытый доступ LingBot-VLA — мультимодальную модель для управления роботами. Главная фишка: кросс-онтоло

Представьте, что вы купили новый телефон, и вам не нужно заново учиться им пользоваться — пальцы сами знают, куда нажимать. В мире робототехники всё до сих пор было иначе: каждая «железяка» требовала своего уникального кода и тысяч часов обучения в симуляциях. Но ребята из Lingbo, подразделения китайского гиганта Ant Group, решили, что пора с этим заканчивать.
Они выкатили в открытый доступ LingBot-VLA — модель, которая претендует на роль универсального мозга для всего, что имеет моторы и манипуляторы. Суть проблемы «физического ИИ» всегда упиралась в то, что мы называем кросс-онтологичностью. Если вы научили нейросеть управлять одной конкретной клешнёй, она абсолютно беспомощна, когда её пересаживают на двуногого гуманоида.
LingBot-VLA пытается решить этот когнитивный диссонанс. Будучи моделью класса Vision-Language-Action (VLA), она не просто «видит» картинку и «читает» текст. Она переводит эти данные в конкретные векторы движения, которые понятны разным типам роботов.
Это как если бы один водитель мог одинаково виртуозно управлять и велосипедом, и карьерным самосвалом без дополнительной подготовки. Почему это происходит именно сейчас? Мы переживаем переход от «болтливого ИИ» к «действующему».
Чат-боты научились писать стихи, но они всё ещё не могут вытереть пыль со стола, не разбив вазу. Чтобы робот стал полезным в быту, ему нужна обобщающая способность. LingBot-VLA показывает рекордные результаты в тестах на обобщение задач: она понимает команду «принеси яблоко» даже в незнакомой комнате и с незнакомым типом захвата.
Разработчики использовали огромный массив данных, объединяющий визуальные образы и траектории движений, что позволило модели выстроить внутреннюю логику пространства. Интересен и политический контекст. Пока американские компании вроде Figure или Tesla держат свои наработки за семью замками, китайский техгигант Ant Group выбирает путь открытого исходного кода.
Это стратегический ход: если LingBot-VLA станет стандартом для мелких производителей роботов по всему миру, Китай фактически захватит операционную систему будущего «физического интернета». Это классическая игра в долгую, где доминирование на уровне стандартов важнее сиюминутной прибыли от продажи лицензий. Для индустрии это означает резкое снижение порога входа.
Теперь стартапу не нужно нанимать сотню PhD для обучения базовых движений робота — можно взять готовый «фундамент» и дообучить его под конкретную задачу. Мы приближаемся к моменту, когда железо станет вторичным, а софт — определяющим. Если LingBot-VLA действительно так хороша в адаптации, как заявляют разработчики, то через пару лет мы увидим нашествие роботов, которые наконец-то перестанут тупить перед закрытой дверью.
Конечно, остаются вопросы к безопасности и точности — в физическом мире ошибка стоит дороже, чем опечатка в чат-боте. Но вектор задан чётко: ИИ выходит из экранов смартфонов в реальность. Нам остаётся только наблюдать, как быстро эти «мозги» обретут достойные «тела».
Главное: LingBot-VLA может стать «Андроидом» для мира робототехники, сделав универсальное управление роботами доступным каждому. Готовы ли мы к тому, что открытый код теперь умеет двигать предметами в нашей квартире?