Hamidun News Podcast→ оригинал

🎧 Робототехника: главное за неделю

🎧 Тематический подкаст Так, давайте разберём это по полочкам. Сегодня у нас на столе ну, метафорически целая стопка свежих материалов для этого глубокого разб

🎧 Робототехника: главное за неделю
Источник: Hamidun News Podcast. Коллаж: Hamidun News.
◐ Слушать статью18 мин
0:00
—:—

_Аудио подкаст — двое AI-ведущих обсуждают свежие AI-новости. Полный транскрипт ниже._

Ведущий A (00:00): Так, давайте разберём это по полочкам. Сегодня у нас на столе ну, метафорически целая стопка свежих материалов для этого глубокого разбора.

Ведущий B (00:11): Ага, и материалы, я бы сказала, довольно переворачивающие привычную картину.

Ведущий A (00:16): 100 процентов. Тут и закрыты отчеты стартапов, и сухие научные публикации по новым бенчмаркам, и даже инвестиционные сводки от гигантов вроде Nvidia.

Ведущий B (00:28): Да-да, все в 1 кучу, но очень логичную кучу.

Ведущий A (00:32): Именно. И если свести все эти цифры, графики, новости к 1 мысли, то мы стоим на пороге просто фундаментального сдвига.

Ведущий B (00:41): Сдвига от жесткого контроля к хаосу, верно?

Ведущий A (00:44): Да, именно к выживанию в хаосе. Мы все как-то привыкли к образу современного завода ну, знаете, стоимостью в сотни 1000000 долларов. Там всё работает как идеальный часовой механизм.

Ведущий B (00:56): Где каждая деталь скользит по конвейеру, роботы делают такие красивые выверенные взмахи.

Ведущий A (01:03): Вот, вот эти идеальные взмахи. Но стоит кому-то случайно оставить гаечный ключ на полу или сдвинуть рабочий стол буквально на пару сантиметров и всё. Вся эта идиллия рушится.

Ведущий B (01:17): Робот слепо врезается в препятствия. Врезается препятствия.

Ведущий A (01:19): Да. Манипулятор, в муз которого жестко вшиты строгие геометрические координаты, просто замирает, выдает ошибку, а то и ну ломает дорогостоящее оборудование.

Ведущий B (01:31): И эта проблема жёсткого программирования была, пожалуй, главным якорем всей индустрии десятилетиями.

Ведущий A (01:37): Шаг влево, шаг вправо катастрофы.

Ведущий B (01:39): Точно. Машины великолепно справляются с повторением 1 и того же математического действия 1000000 раз, но они оказываются абсолютно беспомощными перед базовым, ну, бытовым хаосом реального физического мира.

Ведущий A (01:53): У них просто нет интуиции.

Ведущий B (01:55): Да, у них нет того, что мы называем пониманием физического контекста. Точнее, так было до недавних времен. Судя по тем данным, которые лежат перед нами, правила игры переписываются прямо сейчас.

Ведущий A (02:08): И это как раз главная миссия нашего сегодняшнего разбора. Мы исследуем, как искусственный интеллект прямо на наших глазах обретает физическое тело.

Ведущий B (02:18): Отказывается от многотомных инструкций.

Ведущий A (02:20): Учится выживать в непредсказуемой среде. Если проанализировать все источники, возникает 1 поразительный инсайт. Будущее настоящей революции машин строится вовсе не на гигантских вычислительных мощностях.

Ведущий B (02:32): И не на бесконечных серверных ферм.

Ведущий A (02:35): Да. Оно строится на невероятно элегантных, компактных, локальных решениях и мышечной адаптивности.

Ведущий B (02:41): Слушай, чтобы по-настоящему осознать масштаб этих изменений, нам нужно спуститься на базовый уровень механики. Прежде чем доверить роботу глобальную цепочку поставок, ему нужно освоить фундаментальную физику.

Ведущий A (02:54): Ну типа просто взять деталь и не сломать

Ведущий B (02:56): её? Вот именно. Захватить криво лежащую деталь сложной формы и не раздавить. И документы показывают тут совершенно нетипичный подход.

Ведущий A (03:05): О да, в 1 из исследований описан очень показательный эксперимент. Инженер взял небольшого гусеничного робота с манипулятором и интегрировал в него языковую модель от Google Gemini Nano.

Ведущий B (03:18): И тут важные цифры.

Ведущий A (03:19): Да, самые важные цифры. В этой модели всего 270 1000000 параметров.

Ведущий B (03:25): Кто на фоне монструозных версий GPT просто микроскопически мало? Те требуют целых дата-центров и чуть ли не атомных электростанций для питания.

Ведущий A (03:36): 100 процентов. А тут автор проекта описывает это как настоящий нейропанк. Робот обучается в симуляции, у него вообще нет доступа к интернету, он не обращается ни к каким облачным серверам.

Ведущий B (03:48): Все локально.

Ведущий A (03:49): Абсолютно. И вот тут хочется остановиться. Зачем вообще отрезать современного робота от облака, где лежат эти бесконечные мощности?

Ведущий B (03:58): Ну, потому что в физическом миле облако это смерть из-за латентности. Задержка сигнала решает все. Представь, что робот пытается удержать выскальзывающий хрупкий предмет. Ага. Сигнал с сенсоров должен уйти на сервер где-то в другой стране, обработаться огромной моделью и вернуться обратно с командой сжать пальцы на 2 миллиметра сильнее.

Ведущий A (04:21): А на это уходит полсекунды?

Ведущий B (04:23): Да, а за полсекунды предмет уже разобьётся о бетонный пол.

Ведущий A (04:28): То есть это разница между тем, чтобы искать ответ в огромной библиотеке на другом конце города, и тем, чтобы просто одернуть руку от горячей плиты на уровне спинного мозга?

Ведущий B (04:36): Отличная аналогия. Нам нужны именно локальные рефлексы. И вот эта компактная модель на 270000000 параметров дает нужную автономность.

Ведущий A (04:46): Плюс, наверное, энергопотребление?

Ведущий B (04:48): Конечно. Постоянно держать активный канал связи с облаком, передавать потоковое видео это же убийство для батареи мобильного агента.

Ведущий A (04:56): Понятно. В этом эксперименте компактная модель локально получала данные об угле поворота суставов, координаты, картинку и училась двигаться методам проб и ошибок прямо на борту.

Ведущий B (05:07): Симуляторами, да.

Ведущий A (05:08): Но тут мы видим стопроцентную симуляцию. Модель сидит в виртуальной коробке. В наших источниках есть и совершенно противоположный подход к той же проблеме хаоса.

Ведущий B (05:19): О, ты про Generalist?

Ведущий A (05:21): Да. И он звучит еще более фантастично. Стартап Generalist, в который, судя по сводкам, вложилась Nvidia. Ребята пошли абсолютно другим путем.

Ведущий B (05:31): Вместо виртуальной реальности они используют реальных людей?

Ведущий A (05:35): Да. Вместо того, чтобы писать код, они используют так называемые грязные человеческие данные. Обычным рабочим на заводе надевают на запястье носимые датчики.

Ведущий B (05:45): Ммм, визуально это выглядит как такие продвинутые фитнес-браслеты.

Ведущий A (05:49): А. Гра. И эти браслеты просто записывают чистую физику человеческих движений во время ежедневной рутины.

Ведущий B (05:56): Каждый угол наклона локтя, каждое микроускорение

Ведущий A (06:00): кисти? Малейшие адаптации, когда человек берет ту самую криво лежащую деталь.

Ведущий B (06:05): И результаты этого подхода, скажем так, разрушают старые догмы робототехники. В отчетах Generalist фигурирует цифра в 99% успеха в реальных непредсказуемых условиях завода. Человеческих движений.

Ведущий A (06:31): То есть робот буквально впитывает в себя чужой физический опыт. Когда деталь лежит нестандартно, он не выдает ошибку синтаксиса, он как бы вспоминает тот самый паттерн, который подсмотрел у живого оператора?

Ведущий B (06:43): Да, вспоминает адаптацию кисти.

Ведущий A (06:46): Слушай, но возникает забавная мысль. Если робот учится на сырых человеческих движениях, не скопирует ли он случайно наши вредные привычки?

Ведущий B (06:54): В смысле?

Ведущий A (06:55): Ну, рабочий задумался, почесал затылок браслетом, а потом взял деталь. Робот тоже будет делать эту микропаузу на почесать затылок?

Ведущий B (07:04): Ах, ну, как раз для фильтрации такого шума и нужны алгоритмы очистки данных. Но доля правды в этом есть машина перенимает именно человеческую кинематику. Да уж. И здесь важно то, как этот сбор сырых физических данных примеряется с первым подходом симуляции от Google.

Ведущий A (07:23): Да, потому что на первый взгляд это 2 абсолютно разных полюса. 1 сидит в стерильной матрице, другой впитывает хаос реального

Ведущий B (07:31): цеха. Но системно они решают разные задачи в 1 цепи. Смотри, симуляция это идеальный безопасный полигон.

Ведущий A (07:38): Там компактные модели могут 1000000 раз упасть.

Ведущий B (07:41): Точно. Упасть, врезаться в стену, сломать виртуальный манипулятор. Они обучаются базовой логике без риска повредить физическое железо стоимостью в сотни 1000 долларов.

Ведущий A (07:52): Разумно.

Ведущий B (07:53): Но никакая, даже самая продвинутая симуляция, не способна математически просчитать все нюансы реального мира. Точечный износ с шестеренки, случайную каплю масла.

Ведущий A (08:04): Или блик света от окна, который слепит сенсор.

Ведущий B (08:08): Да, и вот тут на сцену выходят данные с образцов. Сбор физических метрик даёт ту самую интуитивную мышечную память, которую просто невозможно сгенерировать в коде.

Ведущий A (08:21): То есть индустрия собирает гибрид мозг, который выучил логику в виртуалке, и рефлексы, скопированные из суровой реальности.

Ведущий B (08:29): Абсолютно верно.

Ведущий A (08:31): А заводская реальность действительно сурова. И вот здесь начинается самое интересное в наших материалах. Допустим, мы научили робота идеально двигаться, он ловкий. Но быть ловким 5 минут на презентации не значит уметь выживать. Заводские 40 градусов тепла это суровый тест на железо.

Ведущий A (08:50): Что будет, если агент будет работать 247 без перерывов?

Ведущий B (08:53): О, этот вопрос заставил исследователей пересмотреть сами методы оценки ИИ. В документах описывается совершенно новый стандарт тестирования Benchmark MLT-1.

Ведущий A (09:03): Долгое время ведь измеряли тестами вроде MMLU?

Ведущий B (09:06): Да, но это статика. Вы даёте модели текст по праву, и она генерирует ответ.

Ведущий A (09:12): По сути, тест на эрудицию в вакууме.

Ведущий B (09:15): Но воплощённый EI требует других метрик. Денчмарк Melt1 измеряет цену успешных решений, время реакции в стрессе и выживание под так называемым дрифтом оборудования.

Ведущий A (09:28): Тут стоит пояснить условия этого бенчмарка, потому что они звучат как пытка. Температура 40 градусов, 30 суток непрерывной автономной работы.

Ведущий B (09:37): Это как оставить ноутбук на приборной панели авто под солнцем и запустить сложную игру.

Ведущий A (09:42): Во-во. И цифры из отчёта Meld1 просто ошеломляют. Там фигурирует архитектура Metabolic.AI. Метаболический ИИ, который вообще не использует трансформеры.

Ведущий B (09:52): И по композитным метрикам выживаемости этот метаболический Ai обошел известную модель Lama 7b int 8 в 1600 раз

Ведущий A (10:01): Вдумайтесь в эту пропасть! В 1600 раз в тексте есть даже пугающая констатация, цитирую: Трансформеры умирают через 11 часов под дрифтом. Ну,

Ведущий B (10:13): если разобрать механику, становится ясно, почему происходит этот крах. Трансформеры исторически создавались для пакетной обработки.

Ведущий A (10:21): То есть они получают запросы?

Ведущий B (10:23): Сканируют веса, выдают ответ и, грубо говоря, засыпают до следующего запроса. А воплощённый ИИ не имеет права засыпать он должен каждую миллисекунду считывать потоки данных.

Ведущий A (10:37): А что именно подразумевается под этим дрифтом, который убивает модель за 11 часов?

Ведущий B (10:42): Аппаратный дрифт это неизбежное изменение свойств системы со временем. При долгой работе моторы нагреваются, выдают другое сопротивление. Заводская смазка теряет вязкость.

Ведущий A (10:54): На линзы садится пыль?

Ведущий B (10:56): Точно, сигналы искажаются, трансформеры не могут адаптироваться к этому непрерывному потоку меняющихся данных. Они накапливают математические ошибки. Спустя 11 часов ошибки переполняют контекст, и робот застывает.

Ведущий A (11:10): Или начинает хаотично дергаться. А архитектура Metablog.ai работает по-другому.

Ведущий B (11:16): Да, само слово метаболический не случайно, она работает как пищеварительная система для данных, постоянно переваривает поток, отсеивая шум и адаптируясь к нагреву на лету.

Ведущий A (11:26): Поразительно. И важно подчеркнуть деталь: интеллектуальная собственность на Metaboloc.ai закрыта патентами, но сам бенчмарк MELT-1 полностью открыт для сообщества.

Ведущий B (11:38): Теперь любой инженер может подвергнуть своего робота этому тесту, и это колоссальный шаг мы перестаём оценивать физических роботов по тому, как умно они пишут текст.

Ведущий A (11:47): Проверяем реальную живучесть. Хорошо, заводской хаос победили. Но настоящий хаос начинается там, где есть прохожие, велосипедисты, курьеры

Ведущий B (11:57): Улицы городов.

Ведущий A (11:58): Именно. Если есть выносливые системы, пора выпустить их на улицы. И тут всплывают 2 компании. Первая лондонская Wave. Их гендиректор Алекс Кендал делает смелую ставку.

Ведущий B (12:11): Да, его стратегия это полный отказ от жестких правил дорожного движения в коде. Они не программируют каждый сценарий.

Ведущий A (12:19): Типа, что делать, если выбежит собака в красном ошейнике?

Ведущий B (12:23): Вроде того. Они внедряют сквозной ИИ, который учится управлять авто прямо на реальных дорогах. Машина выезжает на улицы Лондона, наблюдает за плотным трафиком и вырабатывает понимание хаоса.

Ведущий A (12:36): И судя по отчету, накопленный в Лондоне опыт они переносят в автомобили в Сан-Франциско. И адаптация к новому городу происходит в 1000000 раз быстрее конкурентов.

Ведущий B (12:47): Которые все еще пытаются разметить перекрестки в 3D-картах.

Ведущий A (12:50): Но, слушай, как скептик, я должен включить критику. Обучать модель на живых лондонских улицах, среди настоящих пешеходов. Звучит как сценарий для огромного судебного иска.

Ведущий B (13:02): Ну, звучит рискованно, да.

Ведущий A (13:04): 1 дело, когда алгоритм ошибается в симуляторе. И совсем другое, металлическая махина в 2 тонны решает попробовать новый паттерн на пешеходном переходе.

Ведущий B (13:14): Это справедливое опасение, но архитектура испытаний сложнее. На дорогу не выпускают абсолютно чистую непредсказуемую нейросеть, существует жесткий гибридный каркас безопасности.

Ведущий A (13:27): То есть базовая физика торможения?

Ведущий B (13:29): Да. Торможение, распознавание препятствий, которое блокирует критические ошибки, но нюансы плавного встраивания в поток, микроуступки на перекрестках.

Ведущий A (13:40): То, что делает вождение человечным?

Ведущий B (13:43): Да, машина может освоить это только эмпирически.

Ведущий A (13:46): Понятно, каркас не даст никого сбить. А как насчет второй компании? Айнрайт? Это логистика автономные электрические грузовики. Руководитель Русбек Чарли приводит жесткие аргументы.

Ведущий B (13:58): Экономические аргументы.

Ведущий A (13:59): Да, он заявляет, что автономия кардинально ломает финансовую модель, ведь зарплата водителя это 30 40 процентов всех трат логистической компании.

Ведущий B (14:10): Не мало?

Ведущий A (14:10): И при этом он добавляет обязательную фразу, что человек не исчезнет, а перейдет на новую роль оператора в центре диспетчеризации? Скептик во мне снова бьёт тревогу.

Ведущий B (14:21): Что это пиар?

Ведущий A (14:22): Да, действительно ли люди останутся нужны или это просто корпоративное успокоительное, чтобы не пугать общество безработицей?

Ведущий B (14:29): Если смотреть на горизонт одного-двух лет, кажется, что пиар. Но если проанализировать всю цепочку поставок из отчета, картина иная. E-I блестяще справляется с тактикой.

Ведущий A (14:43): Удерживать грузовик в полосе, рассчитывать тормозной путь?

Ведущий B (14:46): Но он абсолютно не способен взять на себя макростратегическую и финансовую ответственность. В источнике есть ключевая цитата: Чарли, нам нужны люди, которые понимают логистику и технологию одновременно.

Ведущий A (15:01): Звучит логично. Алгоритм виртуозно ведёт фуру сквозь метель, но если на границе внезапная забастовка, алгоритм не передоговорится с поставщиками.

Ведущий B (15:11): Вот именно. Происходит смещение роли человека вверх по цепочке. Монотонное кручение руля отдаётся машине.

Ведущий A (15:19): Она не спит, не пьёт кофе.

Ведущий B (15:21): Да, а человек становится системным аналитиком. 1 оператор из офиса контролирует флот из десятков грузовиков. Это объективная потребность в человеке, но с другим набором метанавыков.

Ведущий A (15:33): И это подводит нас к глобальному итогу. Эпоха жесткого кода уходит. На сцену вырвались локальные языковые модели на борту.

Ведущий B (15:41): Появились бенчмарки вроде Meld 1.

Ведущий A (15:44): Роботы выходят из стерильных зон, копируют физику наших запястий, учатся на хаосе улиц, и ценность человеческого интеллекта не обновляется, она трансформируется. Знание жёсткого синтаксиса обесценивается.

Ведущий B (15:56): На его место приходит системное мышление. И самое поразительное, что этот сдвиг фиксируется даже в образовании. В материалах упоминается компания Lego Education.

Ведущий A (16:09): Да, они десятилетиями учили детей кодингу, а к 20 шестому году радикально меняют подход, отказываются от жёсткого написания кода.

Ведущий B (16:17): Внедряют и ассистентов, интуитивное управление через карточки. Детям больше не нужно зубрить команды, им нужно учиться логике и постановке задачи.

Ведущий A (16:29): А крутить моторами машина решит сама. Это идеальное отражение взрослой индустрии. Если проанализировать эту эволюцию, у меня возникает 1 довольно провокационная мысль.

Ведущий B (16:39): Какая?

Ведущий A (16:41): Мы обсуждали стартап Generalist. Роботы учатся физике, копируя движения обычных рабочих. Они перенимают нашу моторику просто потому, что мы так исторически устроены.

Ведущий B (16:51): Ну да, мы их учим.

Ведущий A (16:52): Но базовое свойство алгоритма это оптимизация. Что произойдёт через несколько лет, когда эти системы переработают 1000000000 часов наших движений и начнут искать более эффективные пути?

Ведущий B (17:04): То есть они пойдут дальше человеческой физики?

Ведущий A (17:08): Да. Возможен ли момент, когда машины выработают собственную совершенно инопланетную кинематику, новую мышечную память, в 1000 раз эффективнее нашей, неограниченную нашими суставами и усталостью?

Ведущий B (17:20): Звучит жутковато.

Ведущий A (17:22): И, возможно, визуально она будет казаться нам ломаной, пугающей, непостижимой. Глядя на темпы адаптации ИИ, кажется, что эта пугающая эффективность уже не фантастика, это просто неизбежный следующий шаг эволюции.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…