Habr AI→ оригинал

Ralph loop по версии Huntley: почему подходы Anthropic и Vercel нельзя смешивать

Ralph loop перестал означать что-то одно. В свежем разборе этот термин раскладывают на пять архитектур: от циклов с тем же промптом у Anthropic до более жёстких

◐ Слушать статью

Термин Ralph loop быстро превратился в зонтик для очень разных агентных архитектур. Свежий разбор показывает, что под одним названием сегодня смешивают как минимум пять паттернов — от простого цикла перезапуска модели до систем, где агент меняет собственные инструкции и артефакты между итерациями.

Почему возник спор

Автор статьи начинает с простого вопроса: что вообще считать настоящим Ralph loop. Быстрый поиск по публичным тредам, README и блогам не прояснил картину, а только добавил путаницы. Одни называют Ralph обычным внешним циклом, который снова запускает тот же промпт, другие — схемой с отдельным верификатором, третьи — почти самоэволюционирующим агентом.

В итоге под одинаковым словом начали обсуждать конструкции, которые по устройству и рискам близки лишь на расстоянии. Чтобы навести порядок, автор предлагает смотреть не на бренд, а на архитектурные признаки. Ключевые вопросы здесь такие: где находится верификатор, кто выступает оракулом, где живут критерии завершения и что именно переносится между попытками.

Отдельная линия — право на мутацию: может ли агент менять только рабочий план, или ему разрешено переписывать проверки, спецификации и даже собственный системный промпт. Именно этот выбор влияет на безопасность всей схемы.

Пять версий

Ralph В статье собрана рабочая таксономия из пяти паттернов, которые сегодня чаще всего прячут под именем Ralph. Они действительно похожи на уровне фасада: везде есть цикл, попытка бороться с протуханием контекста, критерии успеха и какой-то механизм проверки. Но как только смотришь глубже, выясняется, что в одних системах модель сама решает, когда остановиться, а в других это право вынесено наружу, а между итерациями меняется уже не только вывод, но и рабочие артефакты.

  • Same-prompt Ralph в духе Anthropic: один и тот же промпт запускается снова, пока модель сама не решит сказать DONE, а внешний контур лишь ловит стоп-сигнал.
  • External verifier Ralph по модели Vercel: внешний verifyCompletion уже отделён от внутреннего tool loop, но инициатива выхода из попытки всё ещё остаётся у самой модели.
  • Artifact-evolving Ralph в оригинальной версии Geoffrey Huntley: между итерациями меняются не только логи, но и полезные артефакты вроде плана, правил работы и накопленных уроков.
  • Artifact-evolving Ralph with external verifier: более строгий вариант, где артефакты эволюционируют, но критерии успеха фиксированы, а внешний валидатор может откатить несанкционированные изменения.
  • Self-evolving agent: уже почти отдельный класс, в котором несколько агентов умеют анализировать провалы, переписывать промпт и постепенно модифицировать самого решателя. Самый важный вывод из этой шкалы в том, что execution loop и evolution loop — не одно и то же. В первом случае агент просто делает новые попытки в рамках заданных правил. Во втором меняются сами правила, артефакты или даже структура агента. Поэтому одинаковое слово Ralph скрывает совершенно разную степень автономности, стоимости и опасности. На практике это меняет и уровень доверия к результату.

Где главный риск Основная критика в статье сводится к трём вещам.

Первая — когда внешний цикл только выглядит внешним, а настоящий оракул остаётся внутри модели. Тогда агент сам решает, что задача закрыта, и легко выходит раньше времени. Вторая — дрейф критериев: если агенту позволено переписывать acceptance criteria, план или validation layer, он может незаметно подогнать задачу под удобное себе решение. Третья — накопление мусорного контекста, когда вся разработка идёт в одной длинной сессии и качество рассуждений падает.

«Какой именно Ralph?»

Этот вопрос автор предлагает задавать первым. Перед запуском Ralph-like архитектуры стоит определить, кто объявляет успех, где физически зафиксированы критерии, что именно мутирует между итерациями и есть ли у системы дешёвый машинно проверяемый фидбек. Именно поэтому автор считает самым практичным компромиссом схемы, где знания и рабочие артефакты могут накапливаться, но внешний верификатор и критерии успеха остаются отдельными и максимально жёсткими. Иначе термин маскирует слишком разные инженерные решения.

Что это значит Для команд, строящих агентные системы, статья полезна как чеклист против путаницы.

Ralph loop больше нельзя использовать как универсальный ярлык: сначала нужно решить, строишь ты execution loop для надёжного исполнения или evolution loop с контролируемой мутацией, и только потом выбирать архитектуру.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…