Machine Learning Mastery explained how to build long-context RAG without extra tokens
Machine Learning Mastery published a practical breakdown of long-context RAG. Even models with huge context windows still face two problems: the Lost in the Mid

15 апреля 2026 года Machine Learning Mastery опубликовал практический разбор о том, как строить long-context RAG без лишней траты токенов и без падения качества ответов. Главный вывод статьи простой: даже модели с окнами на сотни тысяч и миллионы токенов не отменяют RAG, а заставляют пересобрать его архитектуру.
Почему длинный контекст не спасает
Еще недавно стандартный совет для RAG звучал так: разбить документы на мелкие куски, превратить их в эмбеддинги и доставать самые релевантные фрагменты. Это было продиктовано ограничениями самих LLM: контекст стоил дорого и быстро заканчивался. Теперь у разработчиков появились модели с окнами в миллион токенов, и соблазн очевиден — просто загрузить в промпт весь регламент, все инструкции или всю базу знаний целиком.
Но на практике такой подход быстро упирается в две проблемы. Первая — эффект Lost in the Middle, когда модель хуже замечает важную информацию, если она спрятана в середине длинного контекста. Вторая — цена: прогонять огромный массив текста через модель на каждом запросе медленно и дорого.
В результате long-context RAG превращается не в задачу «как засунуть побольше текста», а в задачу «как дать модели ровно тот контекст, на который она действительно обратит внимание».
Пять рабочих техник
Machine Learning Mastery предлагает не одну серебряную пулю, а набор практических приемов, которые можно комбинировать в одном пайплайне. Идея в том, чтобы не просто искать документы, а управлять порядком, объемом и способом подачи контекста в модель. Это заметный сдвиг от старого RAG-подхода, где после retrieval найденные куски почти автоматически отправлялись в промпт без дополнительной логики на каждом шаге и контроля качества.
Reranking после retrieval — сначала брать расширенный набор кандидатов, потом пересортировывать их отдельной моделью. Context caching — один раз загружать большой документ в кэш и дальше передавать модели только вопрос и ссылку на этот контекст. * Dynamic chunking + metadata filters — резать документы на осмысленные блоки и фильтровать их по секциям, датам, страницам и другим метаданным.
Hybrid retrieval — совмещать семантический поиск и точный keyword search, чтобы не терять буквальные совпадения в технических запросах. Query expansion — расширять исходный вопрос дополнительными формулировками, если пользователь задал его слишком общо или разговорно. Самая интересная часть — это не список сам по себе, а то, как техники связаны между собой.
Например, статья рекомендует сначала доставать не топ-5, а, условно, топ-20 кандидатов из векторной базы, затем прогонять их через reranker и уже после этого размещать лучшие документы в промпте стратегически: самый релевантный — в начале, второй по значимости — в конце, остальные — между ними. Так разработчик не спорит с ограничениями внимания модели, а подстраивается под них.
Как меняется пайплайн В статье хорошо показано, что современный RAG
для длинного контекста становится ближе к инженерии поиска, чем к простому «retrieve-and-dump». Если у тебя есть статичная база знаний, вроде объемного мануала или внутреннего регламента, context caching убирает повторную обработку сотен тысяч токенов и заметно снижает задержку. Это особенно полезно для чат-ботов поддержки и внутренних ассистентов, которые снова и снова отвечают по одному и тому же корпусу документов.
Другой важный слой — метаданные и гибридный поиск. Семантический retrieval хорошо понимает смысл, но может пропустить точное название параметра, код ошибки или номер раздела. Keyword-поиск, наоборот, цепляется за буквальные совпадения.
Поэтому автор советует объединять оба канала и сводить их результаты через rank fusion. Поверх этого добавляется фильтрация по структуре документа: сначала отсекаются лишние разделы, даты или страницы, а уже потом запускается similarity search. Это уменьшает шум и делает итоговый контекст заметно чище.
Наконец, query expansion помогает в тех случаях, когда пользователь формулирует вопрос не так, как информация записана в документах. Если человек спрашивает «что делать, если сработала пожарная тревога», система может дополнительно сгенерировать варианты вроде «порядок эвакуации», «точка сбора» или «аварийный выход». За счет этого retrieval находит не только прямые совпадения, но и близкие по смыслу инструкции.
Для корпоративных знаний, compliance-документов и технической документации это особенно ценно.
Что это значит
Статья Machine Learning Mastery фиксирует важный сдвиг: long-context модели не убили RAG, а сделали его взрослее. Теперь выигрывают не те команды, которые загружают в промпт максимум текста, а те, кто умеет грамотно ранжировать, фильтровать, кэшировать и переиспользовать контекст. Для продуктовых команд это означает меньше затрат на токены, ниже задержку и более предсказуемые ответы на длинных корпусах документов. Именно это и становится новым стандартом для корпоративных AI-ассистентов.