Маленькая, да удаленная: Компактная архитектура TRM бросает вызов гигантам ИИ

В статье рассматривается компактная архитектура TRM, способная конкурировать с крупными ИИ-моделями, несмотря на свой небольшой размер.

Маленькая, да удаленная: Компактная архитектура TRM бросает вызов гигантам ИИ

Маленькая, да удаленная: Компактная архитектура TRM бросает вызов гигантам ИИ

Долгое время в искусственном интеллекте доминировал принцип масштаба: больше данных, больше параметров, больше вычислительной мощи. Но что, если путь к настоящему интеллекту лежит не в гигантизме, а в изяществе подхода? Исследователи из Samsung AI Lab в Монреале во главе с Алексей Жоликёр-Мартино предложили радикально иную перспективу. Их творение, Tiny Recursive Model (TRM), содержащая всего 7 миллионов параметров, демонстрирует поразительные результаты в задачах сложного рассуждения. Этот прорыв ставит под сомнение саму необходимость создания все более громоздких систем.

Где кроется мощь рекурсивных сетей

Секрет TRM — не в объеме, а в уникальной архитектуре. Вместо того чтобы выстраивать десятки последовательных слоев, как это делают традиционные трансформеры, модель применяет принцип рекурсии. Представьте себе мыслителя, обдумывающего сложную проблему: он возвращается к исходным данным снова и снова, каждый раз уточняя и углубляя свою интерпретацию. Именно так и работает TRM.

Этот рекурсивный цикл, в ходе которого модель постоянно уточняет свои внутренние состояния и выходные данные, управляется сложными механизмами глубокого контроля и адаптивной остановки. Фактически, модель сама определяет, сколько «шагов размышления» ей требуется для формирования точного ответа, что делает ее не просто калькулятором, а своего рода собеседником с самой собой. Такой минималистичный дизайн превращает ограниченное количество параметров в ключевое преимущество, фокусируя вычислительные ресурсы на процессе осмысления, а не на простом запоминании паттернов. Масштабируемость здесь проявляется иначе: модель становится глубже в вычислительном смысле, не становясь физически больше.

Практические результаты: скромный размер против гигантской силы

Проверка на специализированных тестах показала нечто необычное. Эффективность TRM превзошла все ожидания для модели такого размера.

На тесте Sudoku-Extreme модель достигла фантастической точности в 87%, а на Maze-Hard — 85%. Но настоящей сенсацией стали результаты на наборе ARC-AGI-1, созданном specifically для оценки общего искусственного интеллекта. Здесь TRM показала 45% точности, что существенно выше результата GPT-4, который находится в районе 30%. На более сложном ARC-AGI-2 результат в 8% также выглядит крайне конкурентоспособным. Более того, модель продемонстрировала превосходство в обобщении по сравнению с Hierarchical Reasoning Model (HRM). Эти данные убедительно свидетельствуют о том, что для сложных логических задач грубая сила — не всегда ответ.

Как такое возможно? Допустим, ключ — в самой природе задач. Если крупные модели часто ищут ответ в статистических корреляциях огромного корпуса текстов, то TRM, в силу своей архитектуры, вынуждена выстраивать внутренние логические цепочки. Она не вспоминает, а вычисляет. Это фундаментальное различие.

Экономичные языковые модели и их потенциал

Очевидное следствие скромного размера TRM — ее колоссальная практическая ценность. Такие экономичные модели способны работать на стандартном ноутбуке или мобильном устройстве, устраняя зависимость от дорогостоящей облачной инфраструктуры. Это открывает горизонты для приложений, где скорость отклика, конфиденциальность данных и автономность имеют первостепенное значение.

Низкое энергопотребление представляет еще одно значительное преимущество, делая передовой ИИ более устойчивым и доступным. В споре «размер против эффективности» экологический аспект становится одним из решающих аргументов в пользу компактных решений. Архитектура предлагает путь вперед, где рост возможностей не обязан напрямую означать рост затрат.

Алексія Жоликёр-Мартино, ведущий автор исследования, подчеркивает: «Наша цель состояла не в том, чтобы создать еще больше данных для еще большей модели, а в том, чтобы разработать более разумный алгоритм». Этот комментарий точно отражает суть произошедшего сдвига парадигмы. Фокус смещается с количества на качество мыслительного процесса.

Открытые перспективы

Успех TRM — это не просто единичное достижение; это яркая демонстрация жизнеспособности нового направления. Будущее маленьких AI моделей теперь выглядит не как нишевое направление для ограниченных устройств, а как полноценная альтернатива в решении сложных интеллектуальных задач.

Тот факт, что код и детали обучения модели находятся в открытом доступе, является мощным катализатором для всего научного сообщества. Это приглашение к сотрудничеству, развитию и новым открытиям. Можно ожидать, что в ближайшие годы появятся производные архитектуры, которые разовьют идею рекурсивного мышления еще дальше. Потенциал для создания мощных, доступных и экологичных систем искусственного интеллекта, способных на глубокое рассуждение, стал гораздо более осязаемым. Прорыв команды Samsung SAIL Montreal ясно указывает на то, что подлинная интеллектуальная мощь может оказаться компактной, эффективной и удивительно элегантной.


Источник: arXiv:2510.04871 [cs.AI] "Tiny Recursive Model for Reasoning" (Jolicoeur-Martineau et al., Samsung SAIL Montreal).

Read more