Habr AI объяснил, почему LLM не считают, не учатся в диалоге и зависят от инструментов
Habr AI разобрал два главных мифа о LLM: они не учатся прямо в чате и не умеют «всё сами». Языковая модель сильна в тексте, но для точных расчетов, актуальных д

Статья на Habr AI разбирает популярный миф о том, что современный чат-бот уже сам по себе является универсальным интеллектом. Главный тезис автора простой: базовая LLM по своей природе умеет только работать с текстом — принимать текстовый запрос и генерировать текстовый ответ. Все остальное, что пользователь воспринимает как «магические способности» модели, обычно обеспечивается внешними инструментами, интеграциями и оркестрацией.
Именно поэтому одни и те же интерфейсы могут и рисовать картинки, и искать в интернете, и считать числа, хотя сама языковая модель не становится от этого ни художником, ни поисковиком, ни калькулятором. Первое заблуждение связано с ощущением, что LLM «умеет все». Если попросить ее создать изображение, она формирует запрос для отдельной модели генерации.
Если говорить с ней голосом, в цепочке участвуют распознавание речи и синтез голоса. Если нужен точный расчет, надежный результат чаще всего появляется только после вызова интерпретатора кода или другого вычислительного инструмента. Без таких надстроек LLM опирается на вероятностное воспроизведение паттернов из обучения: она может правильно решить простой пример, но на длинных числах, формулах и задачах с высокой точностью легко ошибается.
Из этого вытекает важная практическая граница: сильная сторона модели — не математика как таковая, а текстовое описание задачи и выбор подходящего инструмента. Второй миф — будто модель учится прямо во время разговора. Автор напоминает, что инференс и обучение — это два разных процесса.
Когда пользователь пишет запрос, модель последовательно генерирует токены на основе уже зафиксированных весов, а сами веса в этот момент не меняются. Значит, конкретная LLM в конкретной сессии не «запоминает урок» и не становится умнее от замечания пользователя. Да, провайдеры могут позже использовать обезличенные диалоги для обучения будущих версий, но это уже отдельный цикл дообучения, а не магическое самообновление в чате.
Отсюда же следует и другой вывод: память о пользователе между диалогами — это обычно не обучение модели, а сохраненный контекст, который затем снова подмешивается в запрос. Дальше статья коротко объясняет, из чего состоит публичная LLM. В ее основе — трансформер, который видит весь доступный контекст сразу и строит ответ как последовательность вероятных токенов, сохраняя общую связность текста за счет усвоенных шаблонов.
Поверх этого работает RLHF — настройка на формат ассистента, вежливость, следование инструкциям и ограничения безопасности. Но RLHF не превращает модель в логическую машину и не чинит фундаментальные слабости. Поэтому языковые модели хороши в анализе текста, обобщении, смене стиля, пошаговых инструкциях, работе с форматами вроде JSON и выборе инструментов.
Слабы они в точных вычислениях, обработке больших таблиц, удержании огромного объема данных в контексте и знании текущего состояния мира после даты обучения. К этому добавляются вероятностная природа ответа, чувствительность к формулировке промпта и риск галлюцинаций. Чтобы сделать LLM полезной в продакшене, вокруг нее строят дополнительный слой.
Для статичных знаний используют RAG: документы разбиваются на фрагменты, по запросу ищутся семантически близкие куски, и модель получает только релевантный контекст. Для динамических данных и действий применяют function calling: LLM решает, когда обратиться к API, базе данных, калькулятору или симуляции, а оркестратор валидирует вызовы, добавляет ответы инструментов в историю и управляет всем циклом. Тот же оркестратор отвечает за память диалога, системные промпты, проверку формата вывода и запуск субагентов.
На этой базе возникают и более громкие концепции — AI-агенты, цифровые сотрудники, copilots и цифровые двойники. По сути, это не отдельная магия, а комбинации LLM, баз знаний, API, автоматизации и классических вычислительных движков. Это значит, что обсуждать «искусственный интеллект» без разделения технологий уже недостаточно.
Если бизнесу нужен точный расчет, строгая автоматизация или прогноз по структурированным данным, одной LLM мало. Если нужна работа с письмами, документами, инструкциями, поиском по знаниям и диалоговым интерфейсом к сложной системе, LLM действительно дает сильный рывок. Трезвый взгляд из статьи полезен именно тем, что снимает лишние ожидания: не нужно приписывать языковой модели сверхспособности, но и недооценивать ее как интерфейс и координатор других инструментов тоже не стоит.