Крах ИИ-агентов: математика доказала, что они никогда не станут надежными
Пока инвесторы вливают миллиарды в концепцию «агентов», которые якобы заменят сотрудников, математики из Оксфорда и других институтов вынесли приговор. Оказывае

Помните, как в прошлом году все вдруг перестали говорить о чат-ботах и начали грезить об «агентах»? Нам обещали, что ИИ скоро будет сам бронировать билеты, писать код за целые отделы и управлять цепочками поставок, пока мы пьем смузи. Оказалось, что у математики на этот счет другое мнение, и оно довольно неприятное для тех, кто уже успел переписать свои бизнес-планы под «полную автономию».
Группа исследователей опубликовала работу, которая бьет в самое больное место индустрии: математическую невозможность надежной работы автономных ИИ-агентов. Проблема не в том, что модели «глупые» или им не хватает обучающих данных от Reddit. Проблема заключается в самой структуре последовательных задач. Если вы просите ИИ сделать что-то в один шаг, вероятность успеха высока. Но как только вы выстраиваете цепочку из десяти действий, начинается беспощадный террор теории вероятностей.
Представьте, что каждый шаг агента выполняется с точностью 95%. Звучит неплохо, правда? В мире людей это уровень отличника. Но в цепочке из десяти шагов общая вероятность успеха падает ниже 60%. А если шагов сто? Шанс на то, что агент дойдет до конца и не превратит ваш проект в цифровой мусор, стремится к нулю. Это называют «катастрофическим накоплением ошибок», и, судя по всему, это не лечится простым увеличением контекстного окна или добавлением очередной порции видеокарт H100.
Индустрия сейчас находится в крайне странном положении. С одной стороны — венчурные капиталисты, вливающие миллиарды в стартапы вроде Cognition, обещающие «первого в мире ИИ-инженера». С другой стороны — сухая математика, которая говорит: «Ребята, это не будет работать так, как вы рисуете в презентациях». Мы пытаемся построить небоскреб на болоте, надеясь, что если мы сделаем фасад красивее, фундамент сам собой укрепится.
Самое ироничное здесь то, что компании продолжают продавать «автономность» как главную фичу. Но на деле мы получаем системы, за которыми нужен глаз да глаз. Это не освобождение от рутины, а новая форма надзора, где человек превращается в вечного корректора за полубезумным алгоритмом. Если агент ошибается в 5% случаев, но делает это молча и с абсолютной уверенностью в своей правоте, он становится опаснее, чем самый ленивый и некомпетентный сотрудник. Ошибку человека можно предсказать, ошибку статистической модели — нет.
Раньше мы восторгались тем, как нейросеть пишет стихи или объясняет квантовую физику. Это было весело, но практически бесполезно для реального производства. Затем пришла эра агентов. Идея была проста: дать модели инструменты — браузер, терминал, доступ к API — и позволить ей действовать. Это превратило ИИ из «умного попугая» в «цифрового стажера». Но, как выяснилось, этот стажер страдает тяжелой формой прогрессирующей невнимательности, которая заложена в него на уровне формул.
Что это значит для нас в ближайшей перспективе? Скорее всего, эра «нажми на кнопку — получишь результат» откладывается на неопределенный срок. Нам придется пересмотреть подход к архитектуре ИИ: от полной автономности перейти к жестко контролируемым модулям, где каждый шаг верифицируется не другим ИИ, а формальными методами или живым человеком. Математику не обмануть яркими демо-роликами в X (бывшем Twitter). Путь к настоящему интеллекту, способному на надежные действия, лежит через понимание причинно-следственных связей, а не простое угадывание следующего токена.
Главное: ИИ-агенты в их нынешнем виде — это статистическая ловушка. Пока мы не решим проблему накопления ошибок, «автономность» останется лишь дорогим и ненадежным аттракционом для инвесторов. Ждем, когда хайп окончательно столкнется с реальностью?