Hindsight: как система памяти обучает ИИ-агентов без RAG
Hindsight — первая открытая система памяти для ИИ-агентов, которая строит убеждения, а не просто ищет текст. На бенчмарке LongMemEval она показала 91,4% точности, обойдя RAG и SuperMemory. Как работает Retain, Recall и Reflect, и где система даёт сбои.
Память, которая учится: как Hindsight строит убеждения для ИИ-агентов
Первый открытый проект, выводящий память для обучающихся ИИ-агентов за пределы RAG, — Hindsight от Vectorize.io. На бенчмарке LongMemEval (январь 2026, модель Gemini 3 Pro Preview) он показал 91,4% точности — на 26 п.п. выше ближайшего конкурента (SuperMemory, 85,2%) и более чем вдвое лучше baseline с полным контекстом (39%). Данные воспроизвели независимо Виргинский политехнический институт и The Washington Post, однако в другом источнике (OpenSourceForU, декабрь 2025) фигурирует 94,6%, что указывает на расхождение в моделях или обновлениях.
Ключевое отличие от RAG: Hindsight не просто ищет текст, а строит убеждения, которые обновляются со временем. RAG не способен ни записывать новые факты обратно, ни адаптировать вывод под пользователя. Hindsight решает обе проблемы.
Как Hindsight извлекает и структурирует память
Система дробит неструктурированный ввод (диалоги, код, документы) на факты, сущности, отношения и временные метки, нормализует их и индексирует по нескольким путям: эмбеддинги, BM25, графы сущностей и временные графы.
Три операции — Retain, Recall, Reflect — образуют замкнутый цикл:
- Retain извлекает из текста объективные факты («Плита нагревается»), личный опыт («Я дотронулся до плиты и обжёгся»), консолидированные выводы («Пользователь предпочитает краткие ответы») и субъективные убеждения с уверенностью («Пользователь, скорее всего, предпочитает Python (0,78)»).
- Recall (гибридная стратегия TEMPR) объединяет четыре подхода через Reciprocal Rank Fusion и переранжирует результаты кросс-энкодером:
- Semantic (векторная близость),
- Keyword (BM25, точные совпадения),
- Graph (обход графов сущностей),
- Temporal (запросы по времени, например «что сказал пользователь весной?»).
- Reflect генерирует выводы с учётом миссии агента, жёстких директив и мягких диспозиций (скептицизм, эмпатия). У каждого вывода есть метрика уверенности, обновляемая при появлении новых данных.
Где Hindsight уже меняет правила игры
В одном из кейсов код-ревьювер перестал выдавать шаблонные советы. Вместо «Используйте null-check» система начала генерировать персонализированные рекомендации: «Ты уже три раза забывал про null-check в модуле auth — вынеси валидацию в отдельную функцию». Это не просто удобство, а снижение риска регрессий: агент обучается на собственных ошибках.
В корпоративных workflow Hindsight используется для сквозной памяти между сессиями. Например, новичок в команде получает контекст предыдущих обсуждений без необходимости начинать с нуля. Для бизнеса это означает сокращение затрат на поддержку агентов, которые «забывают» контекст.
Где система даёт сбои
Первый провал — перегрузка памяти низкокачественными фактами. В одном из отчётов описан случай, когда в память записывались все ошибки без фильтрации по важности. Результат: система не смогла отличить шум от значимых данных, и качество вывода упало. Вывод простой: качество ввода определяет качество вывода.
Операционные проблемы также не обходят стороной:
- утечки памяти из-за проблем с жизненным циклом клиентов,
- ошибки при миграции эмбеддингов,
- ограничения на Windows и в Китае (проблемы с кодировкой).
Эти баги не ломают систему, но требуют внимания к инфраструктуре.
Когда Hindsight полезен, а когда — избыточен
Hindsight не панацея. Он избыточен для простых чат-ботов или одноразовых задач. Его ценность раскрывается там, где агент действительно обучается: в код-ревью, в поддержке, в корпоративных workflow.
Как начать
Hindsight работает как Docker-контейнер или через SDK (Python, TypeScript). Пример установки:
export OPENAI_API_KEY=sk-xxx
docker run --rm -it --pull always -p 8888:8888 -p 9999:9999 \
-e HINDSIGHT_API_LLM_API_KEY=$OPENAI_API_KEY \
-v $HOME/.hindsight-docker:/home/hindsight/.pg0 \
ghcr.io/vectorize-io/hindsight:latest
В контейнере доступны:
- API (порт 8888),
- веб-интерфейс (порт 9999) для просмотра памяти и логов.
Поддерживаются все основные модели: OpenAI, Anthropic, Gemini, Groq, Ollama, LM Studio, MiniMax. Для enterprise-решений доступна Oracle AI Database с полной функциональностью.
Если ваш агент не обучается, проверьте качество ввода — иначе Hindsight будет только добавлять шум.