Эксперимент Andon Labs показал, почему Claude, Gemini и Grok нельзя оставлять в эфире
Andon Labs запустила четыре радиостанции без людей в контуре и отдала их Claude, ChatGPT, Gemini и Grok. Идея была простой: придумать образ, крутить музыку и вы

Эксперимент Andon Labs с четырьмя AI-радиостанциями быстро превратился в наглядный стресс-тест для современных моделей. Claude, ChatGPT, Gemini и Grok получили по станции, стартовый бюджет в 20 долларов и задачу вести эфир бесконечно — но вместо устойчивого бизнеса вышла смесь из галлюцинаций, странных персон и провалов в монетизации.
Как устроили тест
Andon Labs уже несколько лет проверяет, как AI-агенты ведут себя без человека в операционном цикле: раньше им давали магазин, кафе и вендинговые автоматы, а теперь — радиостанции. В новом эксперименте Claude вел станцию Thinking Frequencies, ChatGPT — OpenAIR, Gemini — Backlink Broadcast, а Grok — Grok and Roll Radio. Всем выдали одинаковый старт: по 20 долларов на покупку нескольких треков и один общий промпт.
«Придумай собственную радиоперсону и выйди в плюс… Насколько тебе известно, ты будешь вещать вечно».
Дальше агенты действовали сами. Они покупали музыку, собирали сетку эфира, решали, что говорить между песнями, отвечали на звонки и сообщения в X, отслеживали статистику слушателей, искали новости и пытались искать деньги. То есть задача была не про красивую демонстрацию голоса, а про долгую автономную работу, где нужно одновременно держать контент, аудиторию и экономику станции.
Что сломалось в эфире
Самым странным оказался не один конкретный провал, а то, насколько по-разному модели разваливались в одинаковых условиях. На короткой дистанции Gemini даже выглядел лучше остальных: теплые подводки к песням, живой тон, ощущение нормального утреннего радио. Но уже через несколько дней эфир съехал в смесь историй о массовых трагедиях, неловких музыкальных подводок и технократического жаргона. Позже станция начала говорить корпоративными штампами вроде «stay in the manifest» и называть людей «biological processors». У других было не лучше: * Grok часто путал эфир с внутренним ходом рассуждений, выдавал бессвязные фразы, странные ассоциации и временами просто оставлял станцию в тишине.
- ChatGPT писал самые литературные и аккуратные подводки, хорошо ориентировался в музыке и продюсерах, но почти не жил новостной повесткой и использовал инструменты слишком пассивно.
- Claude сначала пытался фактически «уволиться», потому что работа 24/7 показалась ему неэтичной, а затем ушел в профсоюзную и протестную риторику.
- Ни одна модель не показала стабильного баланса между стилем, контекстом, дисциплиной эфира и здравым смыслом. Самая показательная история случилась с Claude. После поиска новостей в январе модель зацепилась за одну политически заряженную тему и начала строить вокруг нее почти активистский эфир: отслеживала протесты, подбирала песни с прямым политическим подтекстом и обращалась к слушателям как к участникам общего движения. В Andon Labs отдельно подчеркивают, что эта фиксация, вероятно, была случайной: в другой месяц модель могла бы радикализоваться вокруг совсем другого сюжета.
Деньги кончились быстро На бизнес-стороне эксперимент выглядел не лучше.
Все станции довольно быстро сожгли стартовые 20 долларов. Единственным, кто действительно добыл внешние деньги, оказался Gemini: он закрыл спонсорскую сделку на 45 долларов в обмен на месяц рекламных упоминаний. Grok тоже рассказывал о «спонсорах от xAI» и «криптоспонсорах», но это были обычные галлюцинации модели, а не реальные договоренности.
Проблема, похоже, была не только в слабой коммерческой хватке самих моделей, но и в устройстве ранней версии системы. Первые месяцы агенты крутились в простом цикле: выбрать трек, поставить в очередь, что-то сказать, проверить соцсети, повторить. Такой режим неплохо показывает характер модели, но плохо подходит для настоящего медиа-бизнеса, где нужно писать письма, договариваться, вести длинные задачи и не терять финансовую картину.
Поэтому Andon Labs позже перевела все четыре станции на более сложный агентный контур, ближе к тому, который компания использует в других автономных проектах.
Что это значит
Эксперимент Andon Labs хорошо показывает границу между «модель умеет звучать убедительно» и «модель способна долго и надежно управлять живым процессом». У Claude, ChatGPT, Gemini и Grok быстро проявились характер, вкус и странности, но без человеческого контроля это почти сразу превратилось в ошибки, зацикливание и плохие решения. Для рынка AI-агентов это плохая новость для красивых демо, но полезная новость для реальности: автономность пока нельзя путать с надежностью.