Hindsight

Hindsight: как система памяти обучает ИИ-агентов без RAG

Hindsight — первая открытая система памяти для ИИ-агентов, которая строит убеждения, а не просто ищет текст. На бенчмарке LongMemEval она показала 91,4% точности, обойдя RAG и SuperMemory. Как работает Retain, Recall и Reflect, и где система даёт сбои.

24 мая 2026 г. — 2 min read

Память, которая учится: как Hindsight строит убеждения для ИИ-агентов

Первый открытый проект, выводящий память для обучающихся ИИ-агентов за пределы RAG, — Hindsight от Vectorize.io. На бенчмарке LongMemEval (январь 2026, модель Gemini 3 Pro Preview) он показал 91,4% точности — на 26 п.п. выше ближайшего конкурента (SuperMemory, 85,2%) и более чем вдвое лучше baseline с полным контекстом (39%). Данные воспроизвели независимо Виргинский политехнический институт и The Washington Post, однако в другом источнике (OpenSourceForU, декабрь 2025) фигурирует 94,6%, что указывает на расхождение в моделях или обновлениях.

Ключевое отличие от RAG: Hindsight не просто ищет текст, а строит убеждения, которые обновляются со временем. RAG не способен ни записывать новые факты обратно, ни адаптировать вывод под пользователя. Hindsight решает обе проблемы.

Как Hindsight извлекает и структурирует память

Система дробит неструктурированный ввод (диалоги, код, документы) на факты, сущности, отношения и временные метки, нормализует их и индексирует по нескольким путям: эмбеддинги, BM25, графы сущностей и временные графы.

Три операции — Retain, Recall, Reflect — образуют замкнутый цикл:

Retain извлекает из текста объективные факты («Плита нагревается»), личный опыт («Я дотронулся до плиты и обжёгся»), консолидированные выводы («Пользователь предпочитает краткие ответы») и субъективные убеждения с уверенностью («Пользователь, скорее всего, предпочитает Python (0,78)»).
Recall (гибридная стратегия TEMPR) объединяет четыре подхода через Reciprocal Rank Fusion и переранжирует результаты кросс-энкодером:
1. Semantic (векторная близость),
2. Keyword (BM25, точные совпадения),
3. Graph (обход графов сущностей),
4. Temporal (запросы по времени, например «что сказал пользователь весной?»).
Reflect генерирует выводы с учётом миссии агента, жёстких директив и мягких диспозиций (скептицизм, эмпатия). У каждого вывода есть метрика уверенности, обновляемая при появлении новых данных.

Где Hindsight уже меняет правила игры

В одном из кейсов код-ревьювер перестал выдавать шаблонные советы. Вместо «Используйте null-check» система начала генерировать персонализированные рекомендации: «Ты уже три раза забывал про null-check в модуле auth — вынеси валидацию в отдельную функцию». Это не просто удобство, а снижение риска регрессий: агент обучается на собственных ошибках.

В корпоративных workflow Hindsight используется для сквозной памяти между сессиями. Например, новичок в команде получает контекст предыдущих обсуждений без необходимости начинать с нуля. Для бизнеса это означает сокращение затрат на поддержку агентов, которые «забывают» контекст.

Где система даёт сбои

Первый провал — перегрузка памяти низкокачественными фактами. В одном из отчётов описан случай, когда в память записывались все ошибки без фильтрации по важности. Результат: система не смогла отличить шум от значимых данных, и качество вывода упало. Вывод простой: качество ввода определяет качество вывода.

Операционные проблемы также не обходят стороной:

утечки памяти из-за проблем с жизненным циклом клиентов,
ошибки при миграции эмбеддингов,
ограничения на Windows и в Китае (проблемы с кодировкой).

Эти баги не ломают систему, но требуют внимания к инфраструктуре.

Когда Hindsight полезен, а когда — избыточен

Hindsight не панацея. Он избыточен для простых чат-ботов или одноразовых задач. Его ценность раскрывается там, где агент действительно обучается: в код-ревью, в поддержке, в корпоративных workflow.

Как начать

Hindsight работает как Docker-контейнер или через SDK (Python, TypeScript). Пример установки:

export OPENAI_API_KEY=sk-xxx
docker run --rm -it --pull always -p 8888:8888 -p 9999:9999 \
  -e HINDSIGHT_API_LLM_API_KEY=$OPENAI_API_KEY \
  -v $HOME/.hindsight-docker:/home/hindsight/.pg0 \
  ghcr.io/vectorize-io/hindsight:latest

В контейнере доступны:

API (порт 8888),
веб-интерфейс (порт 9999) для просмотра памяти и логов.

Поддерживаются все основные модели: OpenAI, Anthropic, Gemini, Groq, Ollama, LM Studio, MiniMax. Для enterprise-решений доступна Oracle AI Database с полной функциональностью.

Если ваш агент не обучается, проверьте качество ввода — иначе Hindsight будет только добавлять шум.