TTS

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.

20 мая 2026 г. — 2 min read

Supertonic 3: плюсы и подводные камни on-device TTS

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель использует архитектуру автоэнкодера речи, Self-Purifying Flow Matching для шумоустойчивости и новый метод LARoPE для точного выравнивания текста и аудио. Её вес — 99 миллионов параметров, а ONNX-артефакты занимают 404 МБ. Выходной аудиопоток — 44.1 кГц, 16-битный WAV без апсемплинга.

Производительность: 20 секунд на минуту речи — это нормально?

На Onyx Boox Go 6 (e-ink ридер) Supertonic 3 синтезирует минуту речи за 20 секунд (RTF 0.3×). В документации упоминается поддержка Raspberry Pi, но без бенчмарков на устройствах с 1–2 ГБ RAM. Для офлайн-приложений, где задержка не критична (например, чтение книг или новостей на e-ink устройствах), такая производительность приемлема. В сценариях интерактивного общения (звонки, чат-боты) задержка уже становится проблемой.

Голосовой конструктор: что можно делать с голосами, а что — нет

Supertonic 3 поставляется с Voice Builder — инструментом для создания пользовательских голосовых профилей в формате JSON, совместимых с обеими версиями модели (v2 и v3). Голосовые профили и экспорты из Voice Builder подчиняются условиям Supertone, что ограничивает свободу их распространения и модификации. В документации не уточняется, можно ли свободно делиться сгенерированными голосами или изменять их для коммерческих проектов.

Текстовая нормализация: где Supertonic 3 выигрывает

Supertonic 3 корректно обрабатывает сложные выражения:

финансовые ($5.2M → "five point two million dollars"),
телефонные номера ((212) 555-0142 ext. 402),
технические единицы (30kph → "thirty kilometers per hour").

В документации утверждается, что четыре конкурирующие системы (ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS, Microsoft) не справляются с этими задачами. Однако нормализация лучше работает для английского и европейских языков; для азиатских языков (например, японского или корейского) качество может быть ниже.

Установка: барьеры и зависимости

Модели Supertonic 3 хранятся на Hugging Face в формате Git LFS. Для работы требуется клонировать репозиторий:

pip install supertonic
git clone https://huggingface.co/Supertone/supertonic-3 assets

Python SDK автоматически скачивает модели при первом запуске (auto_download=True), но для других языков (C++, Rust, Swift) требуется ручное скачивание. В браузере Supertonic 3 использует onnxruntime-web с поддержкой WebGPU — синтез речи возможен даже на устройствах без GPU, но требует современного браузера.

Где Supertonic 3 подходит, а где — нет

Supertonic 3 — не замена облачным TTS-системам в сценариях, требующих максимального качества на редких языках. Он не поддерживает GPU-ускорение, а качество синтеза на азиатских языках может оставлять желать лучшего. Голосовой конструктор требует покупки, а в документации нет объективных метрик качества (например, MOS).

Но для задач, где критичны приватность, низкая задержка и поддержка 31 языка, Supertonic 3 — один из лучших вариантов. Он подходит для e-ink ридеров, IoT-устройств и офлайн-приложений, где важнее скорость и локальность. Перед внедрением стоит протестировать модель на целевых языках и сценариях.

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Read more

Тараканы-киборги под водой: как насекомые помогают в спасательных операциях

Как PostgreSQL может заменить половину инфраструктуры без лишних сервисов

Gamma в ChatGPT: как ИИ ускоряет черновую сборку презентаций

Ford вернула инженеров, чтобы исправить ошибки ИИ в контроле качества