Hindsight: как система памяти обучает ИИ-агентов без RAG

Hindsight — первая открытая система памяти для ИИ-агентов, которая строит убеждения, а не просто ищет текст. На бенчмарке LongMemEval она показала 91,4% точности, обойдя RAG и SuperMemory. Как работает Retain, Recall и Reflect, и где система даёт сбои.

Hindsight: как система памяти обучает ИИ-агентов без RAG

Память, которая учится: как Hindsight строит убеждения для ИИ-агентов

Первый открытый проект, выводящий память для обучающихся ИИ-агентов за пределы RAG, — Hindsight от Vectorize.io. На бенчмарке LongMemEval (январь 2026, модель Gemini 3 Pro Preview) он показал 91,4% точности — на 26 п.п. выше ближайшего конкурента (SuperMemory, 85,2%) и более чем вдвое лучше baseline с полным контекстом (39%). Данные воспроизвели независимо Виргинский политехнический институт и The Washington Post, однако в другом источнике (OpenSourceForU, декабрь 2025) фигурирует 94,6%, что указывает на расхождение в моделях или обновлениях.

Ключевое отличие от RAG: Hindsight не просто ищет текст, а строит убеждения, которые обновляются со временем. RAG не способен ни записывать новые факты обратно, ни адаптировать вывод под пользователя. Hindsight решает обе проблемы.


Как Hindsight извлекает и структурирует память

Система дробит неструктурированный ввод (диалоги, код, документы) на факты, сущности, отношения и временные метки, нормализует их и индексирует по нескольким путям: эмбеддинги, BM25, графы сущностей и временные графы.

Три операции — Retain, Recall, Reflect — образуют замкнутый цикл:

  • Retain извлекает из текста объективные факты («Плита нагревается»), личный опыт («Я дотронулся до плиты и обжёгся»), консолидированные выводы («Пользователь предпочитает краткие ответы») и субъективные убеждения с уверенностью («Пользователь, скорее всего, предпочитает Python (0,78)»).
  • Recall (гибридная стратегия TEMPR) объединяет четыре подхода через Reciprocal Rank Fusion и переранжирует результаты кросс-энкодером:
    1. Semantic (векторная близость),
    2. Keyword (BM25, точные совпадения),
    3. Graph (обход графов сущностей),
    4. Temporal (запросы по времени, например «что сказал пользователь весной?»).
  • Reflect генерирует выводы с учётом миссии агента, жёстких директив и мягких диспозиций (скептицизм, эмпатия). У каждого вывода есть метрика уверенности, обновляемая при появлении новых данных.

Где Hindsight уже меняет правила игры

В одном из кейсов код-ревьювер перестал выдавать шаблонные советы. Вместо «Используйте null-check» система начала генерировать персонализированные рекомендации: «Ты уже три раза забывал про null-check в модуле auth — вынеси валидацию в отдельную функцию». Это не просто удобство, а снижение риска регрессий: агент обучается на собственных ошибках.

В корпоративных workflow Hindsight используется для сквозной памяти между сессиями. Например, новичок в команде получает контекст предыдущих обсуждений без необходимости начинать с нуля. Для бизнеса это означает сокращение затрат на поддержку агентов, которые «забывают» контекст.


Где система даёт сбои

Первый провал — перегрузка памяти низкокачественными фактами. В одном из отчётов описан случай, когда в память записывались все ошибки без фильтрации по важности. Результат: система не смогла отличить шум от значимых данных, и качество вывода упало. Вывод простой: качество ввода определяет качество вывода.

Операционные проблемы также не обходят стороной:

  • утечки памяти из-за проблем с жизненным циклом клиентов,
  • ошибки при миграции эмбеддингов,
  • ограничения на Windows и в Китае (проблемы с кодировкой).

Эти баги не ломают систему, но требуют внимания к инфраструктуре.


Когда Hindsight полезен, а когда — избыточен

Hindsight не панацея. Он избыточен для простых чат-ботов или одноразовых задач. Его ценность раскрывается там, где агент действительно обучается: в код-ревью, в поддержке, в корпоративных workflow.


Как начать

Hindsight работает как Docker-контейнер или через SDK (Python, TypeScript). Пример установки:

export OPENAI_API_KEY=sk-xxx
docker run --rm -it --pull always -p 8888:8888 -p 9999:9999 \
  -e HINDSIGHT_API_LLM_API_KEY=$OPENAI_API_KEY \
  -v $HOME/.hindsight-docker:/home/hindsight/.pg0 \
  ghcr.io/vectorize-io/hindsight:latest

В контейнере доступны:

  • API (порт 8888),
  • веб-интерфейс (порт 9999) для просмотра памяти и логов.

Поддерживаются все основные модели: OpenAI, Anthropic, Gemini, Groq, Ollama, LM Studio, MiniMax. Для enterprise-решений доступна Oracle AI Database с полной функциональностью.

Если ваш агент не обучается, проверьте качество ввода — иначе Hindsight будет только добавлять шум.

Read more

Техас против Meta и WhatsApp: как сквозное шифрование стало предметом судебного спора

Техас против Meta и WhatsApp: как сквозное шифрование стало предметом судебного спора

Генеральный прокурор Техаса обвинил Meta и WhatsApp в том, что сквозное шифрование создаёт «ложное чувство безопасности» и мешает расследованию преступлений. Иск ставит под угрозу принцип «приватности по умолчанию» и заставляет компании искать баланс между безопасностью пользователей и требованиями…

Аналитика данных в 2026 году: как перестать быть «галочкой» в резюме

Аналитика данных в 2026 году: как перестать быть «галочкой» в резюме

Рынок аналитиков данных перегружен кандидатами с шаблонными резюме. Работодатели теперь требуют не просто навыки, а подтвержденные примеры влияния на бизнес и работающие метрики. Как пройти ATS и не затеряться среди 19 резюме на место.

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.

Ubuntu Core 26: монолитная ОС для устройств с длительным сроком службы

Ubuntu Core 26: монолитная ОС для устройств с длительным сроком службы

Canonical выпустила Ubuntu Core 26 — минимальную неизменяемую ОС для встраиваемых систем с поддержкой безопасности до 15 лет. Монолитный образ, атомарные обновления и аппаратная защита ключей делают её подходящей для медицинского оборудования, промышленных контроллеров и сетевых шлюзов.