Память для LLM-агентов: почему проще забыть, чем хранить

LLM-агенты тонут в длинных контекстах и не умеют забывать. Бенчмарки показывают 95% успеха, а в продакшене — 40–60%. Как селективно хранить релевантное и избежать эффекта lost in the middle.

Память для LLM-агентов: почему проще забыть, чем хранить

Память для LLM-агентов: что хранить и что забывать

Агент без памяти — болтун. Агент с памятью, которая не умеет забывать, — узел проблем.


Данные есть, контекста нет

Модели с длинными контекстами (200K–1M токенов) теряют нить в середине документов — эффект lost in the middle (Liu et al., 2023) убивает производительность, даже когда память формально присутствует. Николенко в обзоре отмечает: фреймворк MemPalace показывает лучшие результаты в режиме без «чертога разума» — то есть когда система не хранит всё подряд, а селективно отбирает релевантное. Память для агентов — это фильтр, а не склад.

Даже лучшие инструменты не решают проблему полностью. Николенко называет Hindsight (Latimer et al., 2025) самым надёжным решением, но и он требует ручной настройки: что хранить, как обновлять, когда забывать. Бенчмарки вроде LoCoMo тестируют способность «вспомнить факт», но не «вспомнить факт для решения задачи» — а именно это критично в реальных сценариях.

В тесте MemoryArena (He et al., 2026) системы, показывающие 95% на синтетических данных, падают до 40–60% в реальных задачах. Разрыв между бенчмарками и продакшеном — не опечатка, а закономерность.


Что хранить — не главное. Главное — что забыть

Классификация памяти по CoALA (Sumers et al., 2024) применима к агентам, но на практике каждая категория становится источником проблем:

  • Рабочая память (текущий контекст) обновляется быстро, но теряется при рестарте сессии.
  • Эпизодическая память (события) хранится в логах, но извлечение требует поиска. В продакшене агенты тратят время на разбор логов, а не на решение задач.
  • Семантическая память (факты) хранится в векторных представлениях или графах, но модели часто игнорируют её, полагаясь на встроенные знания.
  • Процедурная память (навыки) реализуется через инструменты или скрипты, но агенты не всегда понимают, когда и как их применять.

От чат-бота к мультиагентной системе

Одноагентные системы с длинным контекстом или RAG — временное решение. Если задача растёт, система разбухает, а производительность падает. Мультиагентные архитектуры появляются не из моды, а из необходимости: они распределяют нагрузку, но добавляют новые проблемы.

Три класса агентов по степени автономности:

  • Базовый: выполняет строго заданные задачи (например, чат-бот поддержки).
  • Workflow-агент: координирует сложные процессы с возможностью вмешательства человека (например, DevOps-система).
  • Автономный: самостоятельно планирует и корректирует задачи (например, агент для кодирования или исследовательской работы).

Для бизнес-задач (например, поддержка клиентов, DevOps) лучше начинать с оркестратора. Для исследовательских задач (генерация идей, анализ данных) — рой. Гибридные архитектуры (оркестратор + рой + линейные цепочки) — для комплексных платформ, где нужна максимальная гибкость.


Как память распределяется между агентами

В мультиагентных системах память может быть:

  • Централизованной: оркестратор хранит общую память (например, семантическую базу знаний). Риск: единая точка отказа.
  • Децентрализованной: каждый агент хранит свою память (например, эпизодическую). Риск: противоречия между агентами.
  • Гибридной: оркестратор хранит общую память, агенты — локальную. Баланс между согласованностью и отказоустойчивостью.

Практический кейс от RedMadRobot: мультиагентная система для промышленной компании, встроенная в «КОМПАС-3D». Агент проверял схемы и отвечал на вопросы инженеров. Интеллектуальный ассистент для службы поддержки сократил время до первого ответа с 1–2 часов до меньше двух минут, долю решённых запросов на первом уровне — с 20–30% до 60–80%.


Что это меняет на практике

Память для LLM-агентов — это не про хранение, а про забывание. Система должна не только помнить, но и решать, что забыть, чтобы не утонуть в мусоре контекста.

Мультиагентные архитектуры становятся единственным способом построить надёжные решения, но их успех зависит от того, как они управляют памятью, ролями и отказами. Бенчмарки памяти часто завышают реальную производительность. Тестировать системы нужно в реальных сценариях (например, MemoryArena), а не только на синтетических данных.

Выбор архитектуры зависит от задачи. Для простых процессов — оркестратор. Для сложных — гибрид. Но в любом случае первое, что ломается, — это не модель, а память.

Read more

Bun переписали с Zig на Rust за шесть дней: что получилось и какие риски остались

Bun переписали с Zig на Rust за шесть дней: что получилось и какие риски остались

Команда Bun переписала 960 тысяч строк кода с Zig на Rust за шесть дней, сохранив 99,8% тестов и уменьшив бинарник на 3–8 МБ. Но проект унаследовал 13 044 блока unsafe, что ставит под вопрос обещания Rust о безопасности.

iperf3: как правильно измерять пропускную способность между серверами

iperf3: как правильно измерять пропускную способность между серверами

iperf3 показывает только то, что способен передать канал между двумя серверами, если не перегружен публичный тестовый сервер, учтены настройки TCP-окна и исключены прокси. Рассказываем, какие метрики отдаёт утилита, как запустить тест и почему её результаты не равны скорости до сайта в интернете.

Когда FPGA-кластер выгоднее подписки: расчёт на реальных цифрах

Когда FPGA-кластер выгоднее подписки: расчёт на реальных цифрах

FPGA-кластер из 72 устройств ускорил взлом FileVault в 498 раз и снизил латентность в банковских контурах до 0,8 мкс, но окупается только при стабильной нагрузке и наличии аппаратной экспертизы. В остальных случаях дешевле арендовать облачные инстансы или подписаться на коммерческие инструменты.