Контекстное окно LLM: почему нейросеть забывает части вашего диалога

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

15 июн. 2026 г.. Время чтения: 3 мин.

LLM не хранит память между запросами — при каждом новом сообщении модель перечитывает весь диалог с нуля. Этот «ящик видимости» называется контекстным окном…

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

15 июн. 2026 г.· 2 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

Контекстное окно LLM: почему нейросеть забывает части вашего диалога — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

LLM работает не как человек с памятью — а как эксперт, который каждый раз перечитывает всю переписку с нуля и только потом формулирует ответ. Именно в этом кроется главная архитектурная особенность современных нейросетей, которая часто сбивает с толку новых пользователей.

Почему модель «забывает»

Когда вы отправляете новое сообщение в чат с AI, модель не «помнит» предыдущий ответ в привычном смысле. У неё нет оперативной памяти, как у компьютера, и нет долгосрочной памяти, как у человека. Каждый раз, когда вы пишете что-то новое, модель получает на вход весь диалог целиком — от самого первого сообщения до последнего — и заново его обрабатывает, чтобы сформировать ответ. Именно этот ограниченный «ящик», в который помещается вся переписка, и называется контекстным окном. Его размер измеряется в токенах — единицах текста, примерно соответствующих 0,75 слова каждый. Чем длиннее разговор, тем больше токенов он занимает — и тем ближе к пределу.

Что происходит на пределе Контекстное окно не бесконечно, и у каждой модели есть свой потолок.

Вот как выглядят лимиты у популярных решений: GPT-4o — 128 000 токенов (около 96 000 слов) Claude 3.5 Sonnet — 200 000 токенов (около 150 000 слов) Gemini 1.5 Pro — до 1 000 000 токенов Старые модели (GPT-3) — всего 4 000 токенов Когда диалог достигает предела, старые части буквально «выпадают»: модель перестаёт их видеть. Если в начале длинной сессии вы написали «меня зовут Андрей» или задали ключевой контекст задачи, а потом продолжали разговор ещё несколько часов — к концу AI с высокой вероятностью «не помнит» эти детали. Это не глюк и не невнимательность. Это математика: информация просто вышла за пределы окна.

Как разработчики с этим борются

Чтобы скрыть это ограничение от пользователей или хотя бы смягчить его, разработчики добавляют поверх базовых LLM несколько слоёв логики. Для обычного пользователя они невидимы — но именно они делают работу с AI более комфортной. **Суммаризация.

Система автоматически сжимает старые части диалога, сохраняет ключевые факты в компактном виде и освобождает токены для новых сообщений. Пользователь обычно этого не замечает. Векторная память.

Важные факты из разговора сохраняются в отдельную базу данных и извлекаются по мере необходимости. Именно так работают системы RAG (Retrieval-Augmented Generation): они подтягивают нужный контекст в нужный момент, не заполняя им окно постоянно. Системный промпт.

Часть контекстного окна резервируется заранее — под постоянные инструкции, профиль пользователя, факты о задаче. Эта часть не вытесняется историей диалога. Кеширование.

** Некоторые провайдеры кешируют часть контекста на стороне сервера, чтобы не передавать одни и те же данные при каждом запросе. Это снижает вычислительные затраты и немного ускоряет ответ.

«Контекстное окно — это не баг, это ключевое архитектурное решение

трансформеров», — объясняют ML-инженеры, добавляя: квадратичная сложность операций внимания означает, что удвоение окна вчетверо увеличивает вычислительные затраты.

Что это значит

Понимание контекстного окна объясняет многие «странности» в поведении AI: почему модель забывает детали к концу долгого диалога, почему она видит только фрагмент большого документа, почему агентам нужна отдельная система памяти. Это фундаментальное архитектурное ограничение — и индустрия активно учится с ним работать: увеличивает окна, добавляет внешнюю память, исследует новые архитектуры вроде Mamba. Пока что контекстное окно остаётся одним из главных компромиссов в мире LLM.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация