OTUS a expliqué sur Habr comment fonctionnent les agents AI pour le développement logiciel : des tokens aux outils
Habr a publié une analyse utile de la façon dont les agents AI pour le développement logiciel fonctionnent réellement. Derrière la magie, il y a de l’ingénierie

На Habr вышел подробный разбор того, как устроены ИИ-агенты для разработки. Текст снимает ореол «магии» и показывает, что за удобным интерфейсом стоят вполне конкретные механики: токены, системный промпт, инструменты, память диалога и цикл повторных вызовов модели.
Базовая схема агента
Главная мысль статьи проста: агент для разработки — это не отдельный вид интеллекта, а оболочка вокруг большой языковой модели. Внутри такой системы есть сама LLM, скрытый системный промпт с правилами поведения, список доступных инструментов и код, который гоняет всё это по циклу «запрос → вызов функции → результат → новый запрос». Именно этот каркас превращает модель, умеющую продолжать текст, в помощника, который пишет код, читает файлы, запускает команды и возвращается с промежуточными результатами.
Отдельно разбирается базовая механика LLM. Модель работает не со словами, а с токенами, то есть с числовыми представлениями текста и изображений. Это важно не только для понимания архитектуры, но и для экономики продукта: провайдеры берут деньги за обработанные входные и выходные токены, а ещё ограничивают общий размер контекста.
Поэтому даже простая на вид фраза пользователя — это часть цепочки, где каждая новая операция влияет на цену, задержку и качество ответа.
Контекст и цена
Статья хорошо объясняет, почему длинный чат с агентом почти всегда становится дороже. У языковой модели нет собственной памяти между запросами, поэтому приложение вынуждено заново передавать ей историю разговора при каждом следующем ходе. Если пользователь просит сначала написать функцию, потом переписать её под другую библиотеку, а затем добавить тесты, весь предыдущий диалог снова уходит в модель как вход.
По мере роста сессии растёт и стоимость каждого следующего шага. длина системного промпта объём истории чата число входных и выходных токенов кэширование повторяющихся префиксов * количество промежуточных вызовов На этом фоне особенно важным становится кэширование токенов. Если ранняя часть промпта не меняется, поставщик модели может обработать её дешевле, потому что часть вычислений уже была сделана раньше.
Поэтому хорошие агентные системы стараются аккуратно вести диалог, не ломать стабильные куски контекста и не пересобирать запрос без необходимости. Иначе агент может работать заметно дороже без какого-либо реального выигрыша в результате и скорости.
Инструменты и reasoning Ключевое отличие агента от обычного чата — доступ к инструментам.
Модель получает инструкцию, какие функции ей разрешено вызывать: от чтения файлов и поиска по коду до запуска Bash или Python. Дальше оболочка агента извлекает такой вызов из ответа модели, выполняет его и возвращает результат обратно в контекст. Именно за счёт этого цикла агент может не просто «советовать», а реально проверять гипотезы, смотреть содержимое проекта, воспроизводить ошибки и исправлять код с опорой на факты, а не на догадки.
Ещё один слой — режим reasoning, который даёт модели больше времени и токенов на промежуточный разбор задачи. В статье он описан как один из самых заметных сдвигов последних поколений моделей, особенно полезный для отладки и анализа сложных веток выполнения. Но цена у этого преимущества прямая: больше вычислений, выше задержка, выше стоимость.
Как сказано в материале, агент — это не магия, а набор архитектурных решений. И качество такого агента определяется не одной громкой моделью, а тем, как инженер собрал весь контур целиком.
Что это значит Материал полезен как противоядие от завышенных ожиданий.
Если ты используешь или строишь AI-агента для разработки, смотреть нужно не только на название модели, а на контекстное окно, системный промпт, набор инструментов, логику цикла и цену каждого шага — именно там спрятаны реальные ограничения и реальное качество.