MarkTechPost→ оригинал

Embeddings OpenAI e RL: Como Construir um Agente com Memória de Longo Prazo para Respostas Precisas

O tutorial demonstra como construir um agente RL com memória de longo prazo que aprende a recuperar de uma base de conhecimento os registros exatos que ajudam u

Embeddings OpenAI e RL: Como Construir um Agente com Memória de Longo Prazo para Respostas Precisas
Источник: MarkTechPost. Коллаж: Hamidun News.

Идея долговременной памяти для ИИ становится практической задачей: в новом туториале показывают, как собрать агента на обучении с подкреплением, который не просто ищет похожие записи, а учится доставать из памяти именно те факты, которые нужны для точного ответа LLM. Такой подход важен для систем, где знаний слишком много для одного контекстного окна и ошибка в выборе нужного воспоминания сразу бьёт по качеству ответа. Авторы начинают с синтетического набора памяти: создают коллекцию записей и затем формируют запросы, которые требуют вспомнить конкретные детали.

Это удобная постановка задачи, потому что она позволяет контролировать, какая запись действительно релевантна, и оценивать не только итоговый ответ модели, но и сам этап извлечения памяти. Вместо ручного подбора правил используется обучаемый агент, который постепенно получает сигнал о том, какие действия помогают выйти на правильный факт. Это также снижает риск подгонки под один конкретный сценарий поиска и упрощает автоматическую проверку экспериментов.

Дальше память и запросы переводятся в векторное пространство с помощью эмбеддингов OpenAI. За счёт этого система получает базовый сигнал сходства: какие записи выглядят близкими к вопросу по смыслу. Но на одной только векторной близости такие системы часто спотыкаются.

Похожая запись может быть слишком общей, частично совпадать по теме или содержать соседний, но не тот факт. Именно здесь RL становится надстройкой над обычным поиском: агенту нужно научиться выбирать не просто наиболее похожее, а наиболее полезное для ответа. Практически это означает, что этап поиска памяти превращается из статического поиска ближайших соседей в последовательность решений.

Агент может ранжировать кандидатов, уточнять выбор, комбинировать сигналы и получать награду за извлечение фрагментов, после которых LLM отвечает точнее. Для разработчиков это важный сдвиг: память становится не пассивным хранилищем, а частью оптимизируемого контура. Такой дизайн особенно полезен для персональных ассистентов, корпоративных баз знаний, агентских систем с историей диалогов и любых продуктов, где модель должна помнить старые факты без постоянной загрузки всего архива в промпт.

Именно такая архитектура помогает отделить краткосрочный контекст текущего запроса от накопленной памяти, которая растёт вместе с продуктом. Отдельно важен синтетический характер датасета и то, как оценивается результат. На первых этапах такой набор помогает быстро прогонять обучение и видеть, работает ли сама механика сигнала награды, но дальше схему придётся переносить на более грязные реальные данные: заметки пользователей, CRM-события, фрагменты документов, переписку и протоколы встреч.

В реальной среде релевантность почти никогда не бинарна, а важные факты могут быть размазаны по нескольким записям. Поэтому для таких систем мало проверить, нашла ли модель что-то похожее: нужно измерять, помогло ли извлечение выдать правильный ответ, сократилось ли число галлюцинаций и насколько стабильно агент ведёт себя на разных типах запросов. В этом смысле RL ценен тем, что оптимизирует именно полезность извлечённой памяти для финальной задачи, а не абстрактную метрику похожести.

Главный вывод из этого материала в том, что следующая волна улучшений LLM-агентов будет связана не только с размером модели, но и с качеством управления памятью. Если агент умеет учиться на сигнале полезности и выбирать нужное воспоминание в нужный момент, то даже без расширения контекстного окна можно заметно повысить точность ответов, снизить шум и сделать поведение системы более устойчивым на длинной дистанции. Для команд, которые строят AI-продукты поверх RAG и агентных сценариев, это хороший ориентир: оптимизировать стоит не только генерацию, но и политику извлечения знаний.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…