Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3: плюсы и подводные камни on-device TTS

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель использует архитектуру автоэнкодера речи, Self-Purifying Flow Matching для шумоустойчивости и новый метод LARoPE для точного выравнивания текста и аудио. Её вес — 99 миллионов параметров, а ONNX-артефакты занимают 404 МБ. Выходной аудиопоток — 44.1 кГц, 16-битный WAV без апсемплинга.


Производительность: 20 секунд на минуту речи — это нормально?

На Onyx Boox Go 6 (e-ink ридер) Supertonic 3 синтезирует минуту речи за 20 секунд (RTF 0.3×). В документации упоминается поддержка Raspberry Pi, но без бенчмарков на устройствах с 1–2 ГБ RAM. Для офлайн-приложений, где задержка не критична (например, чтение книг или новостей на e-ink устройствах), такая производительность приемлема. В сценариях интерактивного общения (звонки, чат-боты) задержка уже становится проблемой.


Голосовой конструктор: что можно делать с голосами, а что — нет

Supertonic 3 поставляется с Voice Builder — инструментом для создания пользовательских голосовых профилей в формате JSON, совместимых с обеими версиями модели (v2 и v3). Голосовые профили и экспорты из Voice Builder подчиняются условиям Supertone, что ограничивает свободу их распространения и модификации. В документации не уточняется, можно ли свободно делиться сгенерированными голосами или изменять их для коммерческих проектов.


Текстовая нормализация: где Supertonic 3 выигрывает

Supertonic 3 корректно обрабатывает сложные выражения:

  • финансовые ($5.2M → "five point two million dollars"),
  • телефонные номера ((212) 555-0142 ext. 402),
  • технические единицы (30kph → "thirty kilometers per hour").

В документации утверждается, что четыре конкурирующие системы (ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS, Microsoft) не справляются с этими задачами. Однако нормализация лучше работает для английского и европейских языков; для азиатских языков (например, японского или корейского) качество может быть ниже.


Установка: барьеры и зависимости

Модели Supertonic 3 хранятся на Hugging Face в формате Git LFS. Для работы требуется клонировать репозиторий:

pip install supertonic
git clone https://huggingface.co/Supertone/supertonic-3 assets

Python SDK автоматически скачивает модели при первом запуске (auto_download=True), но для других языков (C++, Rust, Swift) требуется ручное скачивание. В браузере Supertonic 3 использует onnxruntime-web с поддержкой WebGPU — синтез речи возможен даже на устройствах без GPU, но требует современного браузера.


Где Supertonic 3 подходит, а где — нет

Supertonic 3 — не замена облачным TTS-системам в сценариях, требующих максимального качества на редких языках. Он не поддерживает GPU-ускорение, а качество синтеза на азиатских языках может оставлять желать лучшего. Голосовой конструктор требует покупки, а в документации нет объективных метрик качества (например, MOS).

Но для задач, где критичны приватность, низкая задержка и поддержка 31 языка, Supertonic 3 — один из лучших вариантов. Он подходит для e-ink ридеров, IoT-устройств и офлайн-приложений, где важнее скорость и локальность. Перед внедрением стоит протестировать модель на целевых языках и сценариях.

Read more

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

ПМЭФ-2026: как форум показал разрыв между дипломатией и реальными барьерами

На ПМЭФ-2026 высокие переговоры о ресурсах и суверенитете столкнулись с бытовыми реалиями: потерянные документы, драки за интервью и отсутствие глав европейских государств. Африканские делегаты приехали с конкретными запросами, но их реализация зависит от политической воли.

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark: что обещает новый чип и почему он не для всех

NVIDIA RTX Spark объединяет ARM-процессор Grace и графику Blackwell на одной подложке с 128 ГБ памяти и 1 Пфлопсом FP4. Но без дискретной графики и с Windows on ARM платформа подойдёт только тем, кто готов мириться с ограничениями ради AI-возможностей.

Headroom: как сжать контекст для LLM без потери данных

Headroom: как сжать контекст для LLM без потери данных

Headroom сжимает выводы инструментов, логи и JSON-структуры перед отправкой в LLM, сокращая токены на 60–95% без потери точности. Работает как прокси, библиотека или обёртка для агентов и поддерживает обратимое сжатие через локальный кэш.

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Ubuntu Sway Remix 26.04 LTS: что обещает и чем рискует неофициальный дистрибутив

Неофициальный Ubuntu Sway Remix 26.04 LTS предлагает готовый к использованию Sway на базе Ubuntu LTS без Snap и с поддержкой ARM и NVIDIA. Но поддержка проекта может завершиться уже в ноябре 2026 года, и пользователям стоит готовиться к миграции.