Контекстное окно LLM: почему нейросеть забывает части вашего диалога
LLM не хранит память между запросами — при каждом новом сообщении модель перечитывает весь диалог с нуля. Этот «ящик видимости» называется контекстным окном…
AI-обработка оригинала Habr AI; редакция Hamidun News
LLM работает не как человек с памятью — а как эксперт, который каждый раз перечитывает всю переписку с нуля и только потом формулирует ответ. Именно в этом кроется главная архитектурная особенность современных нейросетей, которая часто сбивает с толку новых пользователей.
Почему модель «забывает»
Когда вы отправляете новое сообщение в чат с AI, модель не «помнит» предыдущий ответ в привычном смысле. У неё нет оперативной памяти, как у компьютера, и нет долгосрочной памяти, как у человека. Каждый раз, когда вы пишете что-то новое, модель получает на вход весь диалог целиком — от самого первого сообщения до последнего — и заново его обрабатывает, чтобы сформировать ответ. Именно этот ограниченный «ящик», в который помещается вся переписка, и называется контекстным окном. Его размер измеряется в токенах — единицах текста, примерно соответствующих 0,75 слова каждый. Чем длиннее разговор, тем больше токенов он занимает — и тем ближе к пределу.
Что происходит на пределе Контекстное окно не бесконечно, и у каждой модели есть свой потолок.
Вот как выглядят лимиты у популярных решений: GPT-4o — 128 000 токенов (около 96 000 слов) Claude 3.5 Sonnet — 200 000 токенов (около 150 000 слов) Gemini 1.5 Pro — до 1 000 000 токенов Старые модели (GPT-3) — всего 4 000 токенов Когда диалог достигает предела, старые части буквально «выпадают»: модель перестаёт их видеть. Если в начале длинной сессии вы написали «меня зовут Андрей» или задали ключевой контекст задачи, а потом продолжали разговор ещё несколько часов — к концу AI с высокой вероятностью «не помнит» эти детали. Это не глюк и не невнимательность. Это математика: информация просто вышла за пределы окна.
Как разработчики с этим борются
Чтобы скрыть это ограничение от пользователей или хотя бы смягчить его, разработчики добавляют поверх базовых LLM несколько слоёв логики. Для обычного пользователя они невидимы — но именно они делают работу с AI более комфортной. **Суммаризация.
Система автоматически сжимает старые части диалога, сохраняет ключевые факты в компактном виде и освобождает токены для новых сообщений. Пользователь обычно этого не замечает. Векторная память.
Важные факты из разговора сохраняются в отдельную базу данных и извлекаются по мере необходимости. Именно так работают системы RAG (Retrieval-Augmented Generation): они подтягивают нужный контекст в нужный момент, не заполняя им окно постоянно. Системный промпт.
Часть контекстного окна резервируется заранее — под постоянные инструкции, профиль пользователя, факты о задаче. Эта часть не вытесняется историей диалога. Кеширование.
** Некоторые провайдеры кешируют часть контекста на стороне сервера, чтобы не передавать одни и те же данные при каждом запросе. Это снижает вычислительные затраты и немного ускоряет ответ.
«Контекстное окно — это не баг, это ключевое архитектурное решение
трансформеров», — объясняют ML-инженеры, добавляя: квадратичная сложность операций внимания означает, что удвоение окна вчетверо увеличивает вычислительные затраты.
Что это значит
Понимание контекстного окна объясняет многие «странности» в поведении AI: почему модель забывает детали к концу долгого диалога, почему она видит только фрагмент большого документа, почему агентам нужна отдельная система памяти. Это фундаментальное архитектурное ограничение — и индустрия активно учится с ним работать: увеличивает окна, добавляет внешнюю память, исследует новые архитектуры вроде Mamba. Пока что контекстное окно остаётся одним из главных компромиссов в мире LLM.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.