New Computer Raised Agent Memory Search Accuracy by 50% with LangSmith
New Computer is a startup building a personal AI assistant with long-term memory. The team improved search accuracy by 50% using LangSmith's observability…
AI-processed from LangChain Blog; edited by Hamidun News
Стартап New Computer добился роста точности поиска в системе памяти AI-агента на 50%, применив инструмент наблюдаемости LangSmith. В основе успеха — не новая архитектура, а дисциплинированная методология тестирования промптов.
Зачем агентам долгосрочная память
Продукт New Computer — персональный AI-ассистент, который по-настоящему помнит пользователя: его предпочтения, прошлые разговоры, привычки и жизненный контекст. Такой подход принципиально отличает ассистента от обычного чат-бота, который каждый раз начинает с чистого листа. Реализация долгосрочной памяти — технически нетривиальная задача. Нельзя просто сохранять всё сказанное и каждый раз отправлять это в контекст модели: объём данных растёт, а стоимость запросов делает такой подход нежизнеспособным. Вместо этого системы памяти строятся на принципе поиска: из накопленной базы извлекаются только релевантные фрагменты. Здесь и возникает метрика recall (полнота поиска): насколько часто система находит именно те воспоминания, которые нужны прямо сейчас. Низкий recall означает, что агент «не вспоминает» важные детали даже тогда, когда они есть в базе. Для персонального ассистента — это критическая проблема.
Что дал
LangSmith LangSmith — инструмент наблюдаемости от LangChain: он логирует каждый шаг работы LLM-приложения, позволяет создавать тестовые датасеты и сравнивать версии системы в наглядном интерфейсе. Команда New Computer выстроила итерационный процесс вокруг нескольких функций: Comparison View — визуальное сопоставление двух прогонов: видно, какие сценарии улучшились, а какие деградировали Отслеживание регрессий — автоматическое выявление случаев, где новая версия системы проигрывает предыдущей Быстрый цикл итераций — изменил промпт → запустил тест → сравнил результаты → принял или откатил Логирование разговоров — полная история запросов помогла выявить паттерны, при которых поиск по памяти давал сбой Главный инсайт: без структурированного сравнения регрессии оставались невидимыми. Когда промпт улучшал одни сценарии, он незаметно ломал другие.
LangSmith сделал эти поломки заметными сразу — до попадания изменений в продакшн.
От интуиции к измеримым результатам
До внедрения LangSmith команда работала по принципу «попробовали — кажется, лучше». Субъективные оценки не позволяли уверенно сравнивать версии: слишком много переменных, слишком мало измеримых данных. После перехода к сравнительному тестированию каждое изменение промпта стало проходить через набор тестовых сценариев. Результаты фиксировались, сопоставлялись с предыдущей версией — и только после подтверждённого улучшения изменения принимались. Регрессия превратилась из случайного «что-то сломалось» в диагностируемую, управляемую проблему. Итог — рост recall на 50%: агент стал на полтора раза чаще находить релевантные воспоминания из прошлых разговоров. Для персонального ассистента, чья ценность измеряется качеством памяти, — это принципиальное улучшение продукта.
Что это значит
Кейс New Computer показывает: качество AI-продукта сегодня определяется не только архитектурой или выбором базовой модели, но и системой наблюдаемости. Команды, которые видят свои регрессии в реальном времени, итерируют быстрее — и это напрямую конвертируется в метрики. Инструменты вроде LangSmith переводят разработку LLM-приложений из режима «кажется, работает» в режим измеримых, воспроизводимых улучшений.
Need AI working inside your business — not just in your newsfeed?
I build production AI for companies — custom CRM, internal tools, autonomous agents, workflow automation. Owned by you, shaped to your process, no per-seat tax. Built by Zhemal Khamidun, CPO of AlpinaGPT (AI platform, 6,000+ users).
The AI world, distilled — once a week
Seven stories that actually mattered, hand-picked. No noise, no reposts, no press releases.
Done! Check your inbox for a confirmation.