Hindsight: как система памяти обучает ИИ-агентов без RAG

Hindsight — первая открытая система памяти для ИИ-агентов, которая строит убеждения, а не просто ищет текст. На бенчмарке LongMemEval она показала 91,4% точности, обойдя RAG и SuperMemory. Как работает Retain, Recall и Reflect, и где система даёт сбои.

Hindsight: как система памяти обучает ИИ-агентов без RAG

Память, которая учится: как Hindsight строит убеждения для ИИ-агентов

Первый открытый проект, выводящий память для обучающихся ИИ-агентов за пределы RAG, — Hindsight от Vectorize.io. На бенчмарке LongMemEval (январь 2026, модель Gemini 3 Pro Preview) он показал 91,4% точности — на 26 п.п. выше ближайшего конкурента (SuperMemory, 85,2%) и более чем вдвое лучше baseline с полным контекстом (39%). Данные воспроизвели независимо Виргинский политехнический институт и The Washington Post, однако в другом источнике (OpenSourceForU, декабрь 2025) фигурирует 94,6%, что указывает на расхождение в моделях или обновлениях.

Ключевое отличие от RAG: Hindsight не просто ищет текст, а строит убеждения, которые обновляются со временем. RAG не способен ни записывать новые факты обратно, ни адаптировать вывод под пользователя. Hindsight решает обе проблемы.


Как Hindsight извлекает и структурирует память

Система дробит неструктурированный ввод (диалоги, код, документы) на факты, сущности, отношения и временные метки, нормализует их и индексирует по нескольким путям: эмбеддинги, BM25, графы сущностей и временные графы.

Три операции — Retain, Recall, Reflect — образуют замкнутый цикл:

  • Retain извлекает из текста объективные факты («Плита нагревается»), личный опыт («Я дотронулся до плиты и обжёгся»), консолидированные выводы («Пользователь предпочитает краткие ответы») и субъективные убеждения с уверенностью («Пользователь, скорее всего, предпочитает Python (0,78)»).
  • Recall (гибридная стратегия TEMPR) объединяет четыре подхода через Reciprocal Rank Fusion и переранжирует результаты кросс-энкодером:
    1. Semantic (векторная близость),
    2. Keyword (BM25, точные совпадения),
    3. Graph (обход графов сущностей),
    4. Temporal (запросы по времени, например «что сказал пользователь весной?»).
  • Reflect генерирует выводы с учётом миссии агента, жёстких директив и мягких диспозиций (скептицизм, эмпатия). У каждого вывода есть метрика уверенности, обновляемая при появлении новых данных.

Где Hindsight уже меняет правила игры

В одном из кейсов код-ревьювер перестал выдавать шаблонные советы. Вместо «Используйте null-check» система начала генерировать персонализированные рекомендации: «Ты уже три раза забывал про null-check в модуле auth — вынеси валидацию в отдельную функцию». Это не просто удобство, а снижение риска регрессий: агент обучается на собственных ошибках.

В корпоративных workflow Hindsight используется для сквозной памяти между сессиями. Например, новичок в команде получает контекст предыдущих обсуждений без необходимости начинать с нуля. Для бизнеса это означает сокращение затрат на поддержку агентов, которые «забывают» контекст.


Где система даёт сбои

Первый провал — перегрузка памяти низкокачественными фактами. В одном из отчётов описан случай, когда в память записывались все ошибки без фильтрации по важности. Результат: система не смогла отличить шум от значимых данных, и качество вывода упало. Вывод простой: качество ввода определяет качество вывода.

Операционные проблемы также не обходят стороной:

  • утечки памяти из-за проблем с жизненным циклом клиентов,
  • ошибки при миграции эмбеддингов,
  • ограничения на Windows и в Китае (проблемы с кодировкой).

Эти баги не ломают систему, но требуют внимания к инфраструктуре.


Когда Hindsight полезен, а когда — избыточен

Hindsight не панацея. Он избыточен для простых чат-ботов или одноразовых задач. Его ценность раскрывается там, где агент действительно обучается: в код-ревью, в поддержке, в корпоративных workflow.


Как начать

Hindsight работает как Docker-контейнер или через SDK (Python, TypeScript). Пример установки:

export OPENAI_API_KEY=sk-xxx
docker run --rm -it --pull always -p 8888:8888 -p 9999:9999 \
  -e HINDSIGHT_API_LLM_API_KEY=$OPENAI_API_KEY \
  -v $HOME/.hindsight-docker:/home/hindsight/.pg0 \
  ghcr.io/vectorize-io/hindsight:latest

В контейнере доступны:

  • API (порт 8888),
  • веб-интерфейс (порт 9999) для просмотра памяти и логов.

Поддерживаются все основные модели: OpenAI, Anthropic, Gemini, Groq, Ollama, LM Studio, MiniMax. Для enterprise-решений доступна Oracle AI Database с полной функциональностью.

Если ваш агент не обучается, проверьте качество ввода — иначе Hindsight будет только добавлять шум.

Read more

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

На ПМЭФ-2026 высокие переговоры о ресурсах и суверенитете столкнулись с бытовыми реалиями: потерянные документы, драки за интервью и отсутствие глав европейских государств. Африканские делегаты приехали с конкретными запросами, но их реализация зависит от политической воли.

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark объединяет ARM-процессор Grace и графику Blackwell на одной подложке с 128 ГБ памяти и 1 Пфлопсом FP4. Но без дискретной графики и с Windows on ARM платформа подойдёт только тем, кто готов мириться с ограничениями ради AI-возможностей.

Headroom: как сжать контекст для LLM без потери данных

Headroom: как сжать контекст для LLM без потери данных

Headroom сжимает выводы инструментов, логи и JSON-структуры перед отправкой в LLM, сокращая токены на 60–95% без потери точности. Работает как прокси, библиотека или обёртка для агентов и поддерживает обратимое сжатие через локальный кэш.

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Неофициальный Ubuntu Sway Remix 26.04 LTS предлагает готовый к использованию Sway на базе Ubuntu LTS без Snap и с поддержкой ARM и NVIDIA. Но поддержка проекта может завершиться уже в ноябре 2026 года, и пользователям стоит готовиться к миграции.