MemPalace: как шумиха вокруг тестов скрыла реальную пользу системы

MemPalace обещала «идеальные» результаты тестов, но на деле её сила — не в генерации ответов, а в точной навигации по исходным текстам. Почему хайп вокруг цифр отодвинул на второй план саму идею, и что на самом деле умеет этот инструмент.

MemPalace: как шумиха вокруг тестов скрыла реальную пользу системы

MemPalace: как шумиха вокруг «идеальных» тестов заставила закрыть глаза на простую идею

Система не отвечает на вопросы — она помогает их найти.

MemPalace хранит переписки и стенограммы дословно, а не в виде сжатых векторов или аннотаций. Каждая беседа укладывается в «Дворец»: крылья для людей или проектов, залы — для типов воспоминаний, комнаты — для идей. Это не генерация ответов, а навигация по исходному тексту. Именно здесь лежит её реальная польза: пользователь видит не абстрактный фрагмент, а полный контекст разговора. В первые сутки проект собрал 5 400 звёзд на GitHub и 1,5 миллиона просмотров в X, но хайп вокруг цифр в пресс-релизе отодвинул на второй план саму идею.

«Идеальные» тесты и как их добивались

Анонс обещал «идеальные» результаты на LongMemEval и LoCoMo. В репозитории нашлись оговорки. Так, 100-процентный результат LoCoMo получен при top_k=50 — параметре, который втрое превышает количество сессий в тестовом датасете. Это не прорыв алгоритма, а обходной манёвр: система просто увеличивает количество вариантов на выходе, чтобы хоть что-то совпало. В LongMemEval показатель 96,6 % измеряет не полноту ответа, а recall@5 — попадает ли хоть один «золотой» фрагмент в топ-5 результатов. Ни генерации, ни проверки фактов здесь не происходит. В документации это есть, а в публичном анонсе — нет.

Сжатие, которое работает не так, как обещали

В коробке есть экспериментальный режим AAAK, который якобы даёт «30-кратное бесшовное сжатие». На деле это лексический трюк: регулярные выражения для сущностей, подсчёт ключевых слов и обрезка предложений до 55 символов. Изначально токены считали по упрощённой формуле len(text)//3, а не токенизатором — цифры были завышены. В тестах LongMemEval прирост точности в 12,4 процентных пункта в сжатом режиме оборачивается падением recall до 84,2 %. Формулировка «lossless» здесь некорректна: текст не восстанавливается в первозданном виде.

Польза системы не в сжатии, а в навигации. Крылья и комнаты Дворца — это не новый алгоритм, а стандартная фича ChromaDB по фильтрации метаданных. В репозитории даже есть утилита fact_checker.py для поиска противоречий, но она не встроена в граф знаний, как обещали в первом README. Правка пришла позже — после волны вопросов.

То, что должно работать «из коробки»

Те, кто пытался запустить MemPalace на macOS с ARM64, получали segmentation fault из-за непропингованных зависимостей ChromaDB. Сборка с chromadb 1.5.6 валилась, а с 0.6.3 — работала. Пользователю пришлось вручную downgrade’ить библиотеку, пересобирать дворец и только потом искать нужный фрагмент. Команда отреагировала быстро: зафиксировала версию в зависимостях. Но инцидент показал, что даже «локальные» инструменты зависят от цепочки релизов, за которые не отвечают напрямую.

MCP-инструменты MemPalace (девятнадцать штук) удобно стыкуются с облачными моделями вроде Claude или Gemini. Для локальных LLM приходится придумывать обходные пути — например, писать контекст в context.txt через пайп. Это не ошибка дизайна, а ограничение модели: система не генерирует ответы, а лишь подсвечивает куски памяти.

Что на самом деле умеет MemPalace

В комментариях к репозиторию часто спрашивают: «А где обещанная память в 30 раз меньше места?» Ответ в том, что MemPalace не претендует на end-to-end решение. Она не отвечает на вопросы, не верифицирует факты, не сжимает текст без потерь. Её сильная сторона — организация диалогов и заметок, причём в неизменном виде. Если ваша задача — сохранить переписку с заказчиком или стенограмму встречи «как есть», система пригодится. Если вы ждёте от неё логического вывода или проверки противоречий — у вас другой инструмент.

Хайп или нет?

Ажиотаж вокруг MemPalace раздули не столько технические достижения, сколько анонс с именем. Упоминание актрисы в списке авторов выстрелило в социальных сетях, а цифры в пресс-релизе подхватили боты и СМИ. Однако именно эта волна внимания заставила команду оперативно исправить документацию, пересчитать бенчмарки и добавить оговорки в описание AAAK. То есть вирусный эффект сработал не против, а за проект — но не потому, что MemPalace превзошёл аналоги, а потому, что публичная проверка вытащила на свет его реальные границы.

Для пользователей это означает простой выбор: если нужен инструмент для хранения и поиска стенограмм на своём компьютере — попробуйте. Если нужна сложная память с генерацией и валидацией фактов — поищите что-то другое. Бенчмарки здесь не мерило качества, а повод для критики. А «Дворец» — это не архитектурное чудо, а удобная полка для заметок.

Read more

Agent Skills: как ИИ‑агенты соблюдают инженерные правила без ущерба для скорости

Agent Skills: как ИИ‑агенты соблюдают инженерные правила без ущерба для скорости

Набор из двадцати структурированных навыков превращает обещания ИИ‑агентов в факты: каждый workflow требует конкретных доказательств — тестов, сканов безопасности, PRD с критериями приёмки — и не даёт пропустить ни шаг.

Hindsight: как система памяти обучает ИИ-агентов без RAG

Hindsight: как система памяти обучает ИИ-агентов без RAG

Hindsight — первая открытая система памяти для ИИ-агентов, которая строит убеждения, а не просто ищет текст. На бенчмарке LongMemEval она показала 91,4% точности, обойдя RAG и SuperMemory. Как работает Retain, Recall и Reflect, и где система даёт сбои.

Техас против Meta и WhatsApp: как сквозное шифрование стало предметом судебного спора

Техас против Meta и WhatsApp: как сквозное шифрование стало предметом судебного спора

Генеральный прокурор Техаса обвинил Meta и WhatsApp в том, что сквозное шифрование создаёт «ложное чувство безопасности» и мешает расследованию преступлений. Иск ставит под угрозу принцип «приватности по умолчанию» и заставляет компании искать баланс между безопасностью пользователей и требованиями…

Аналитика данных в 2026 году: как перестать быть «галочкой» в резюме

Аналитика данных в 2026 году: как перестать быть «галочкой» в резюме

Рынок аналитиков данных перегружен кандидатами с шаблонными резюме. Работодатели теперь требуют не просто навыки, а подтвержденные примеры влияния на бизнес и работающие метрики. Как пройти ATS и не затеряться среди 19 резюме на место.