Память для LLM-агентов: почему проще забыть, чем хранить

LLM-агенты тонут в длинных контекстах и не умеют забывать. Бенчмарки показывают 95% успеха, а в продакшене — 40–60%. Как селективно хранить релевантное и избежать эффекта lost in the middle.

Память для LLM-агентов: почему проще забыть, чем хранить

Память для LLM-агентов: что хранить и что забывать

Агент без памяти — болтун. Агент с памятью, которая не умеет забывать, — узел проблем.


Данные есть, контекста нет

Модели с длинными контекстами (200K–1M токенов) теряют нить в середине документов — эффект lost in the middle (Liu et al., 2023) убивает производительность, даже когда память формально присутствует. Николенко в обзоре отмечает: фреймворк MemPalace показывает лучшие результаты в режиме без «чертога разума» — то есть когда система не хранит всё подряд, а селективно отбирает релевантное. Память для агентов — это фильтр, а не склад.

Даже лучшие инструменты не решают проблему полностью. Николенко называет Hindsight (Latimer et al., 2025) самым надёжным решением, но и он требует ручной настройки: что хранить, как обновлять, когда забывать. Бенчмарки вроде LoCoMo тестируют способность «вспомнить факт», но не «вспомнить факт для решения задачи» — а именно это критично в реальных сценариях.

В тесте MemoryArena (He et al., 2026) системы, показывающие 95% на синтетических данных, падают до 40–60% в реальных задачах. Разрыв между бенчмарками и продакшеном — не опечатка, а закономерность.


Что хранить — не главное. Главное — что забыть

Классификация памяти по CoALA (Sumers et al., 2024) применима к агентам, но на практике каждая категория становится источником проблем:

  • Рабочая память (текущий контекст) обновляется быстро, но теряется при рестарте сессии.
  • Эпизодическая память (события) хранится в логах, но извлечение требует поиска. В продакшене агенты тратят время на разбор логов, а не на решение задач.
  • Семантическая память (факты) хранится в векторных представлениях или графах, но модели часто игнорируют её, полагаясь на встроенные знания.
  • Процедурная память (навыки) реализуется через инструменты или скрипты, но агенты не всегда понимают, когда и как их применять.

От чат-бота к мультиагентной системе

Одноагентные системы с длинным контекстом или RAG — временное решение. Если задача растёт, система разбухает, а производительность падает. Мультиагентные архитектуры появляются не из моды, а из необходимости: они распределяют нагрузку, но добавляют новые проблемы.

Три класса агентов по степени автономности:

  • Базовый: выполняет строго заданные задачи (например, чат-бот поддержки).
  • Workflow-агент: координирует сложные процессы с возможностью вмешательства человека (например, DevOps-система).
  • Автономный: самостоятельно планирует и корректирует задачи (например, агент для кодирования или исследовательской работы).

Для бизнес-задач (например, поддержка клиентов, DevOps) лучше начинать с оркестратора. Для исследовательских задач (генерация идей, анализ данных) — рой. Гибридные архитектуры (оркестратор + рой + линейные цепочки) — для комплексных платформ, где нужна максимальная гибкость.


Как память распределяется между агентами

В мультиагентных системах память может быть:

  • Централизованной: оркестратор хранит общую память (например, семантическую базу знаний). Риск: единая точка отказа.
  • Децентрализованной: каждый агент хранит свою память (например, эпизодическую). Риск: противоречия между агентами.
  • Гибридной: оркестратор хранит общую память, агенты — локальную. Баланс между согласованностью и отказоустойчивостью.

Практический кейс от RedMadRobot: мультиагентная система для промышленной компании, встроенная в «КОМПАС-3D». Агент проверял схемы и отвечал на вопросы инженеров. Интеллектуальный ассистент для службы поддержки сократил время до первого ответа с 1–2 часов до меньше двух минут, долю решённых запросов на первом уровне — с 20–30% до 60–80%.


Что это меняет на практике

Память для LLM-агентов — это не про хранение, а про забывание. Система должна не только помнить, но и решать, что забыть, чтобы не утонуть в мусоре контекста.

Мультиагентные архитектуры становятся единственным способом построить надёжные решения, но их успех зависит от того, как они управляют памятью, ролями и отказами. Бенчмарки памяти часто завышают реальную производительность. Тестировать системы нужно в реальных сценариях (например, MemoryArena), а не только на синтетических данных.

Выбор архитектуры зависит от задачи. Для простых процессов — оркестратор. Для сложных — гибрид. Но в любом случае первое, что ломается, — это не модель, а память.

Read more

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

На ПМЭФ-2026 высокие переговоры о ресурсах и суверенитете столкнулись с бытовыми реалиями: потерянные документы, драки за интервью и отсутствие глав европейских государств. Африканские делегаты приехали с конкретными запросами, но их реализация зависит от политической воли.

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark объединяет ARM-процессор Grace и графику Blackwell на одной подложке с 128 ГБ памяти и 1 Пфлопсом FP4. Но без дискретной графики и с Windows on ARM платформа подойдёт только тем, кто готов мириться с ограничениями ради AI-возможностей.

Headroom: как сжать контекст для LLM без потери данных

Headroom: как сжать контекст для LLM без потери данных

Headroom сжимает выводы инструментов, логи и JSON-структуры перед отправкой в LLM, сокращая токены на 60–95% без потери точности. Работает как прокси, библиотека или обёртка для агентов и поддерживает обратимое сжатие через локальный кэш.

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Неофициальный Ubuntu Sway Remix 26.04 LTS предлагает готовый к использованию Sway на базе Ubuntu LTS без Snap и с поддержкой ARM и NVIDIA. Но поддержка проекта может завершиться уже в ноябре 2026 года, и пользователям стоит готовиться к миграции.