Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости
Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.
Supertonic 3: плюсы и подводные камни on-device TTS
Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель использует архитектуру автоэнкодера речи, Self-Purifying Flow Matching для шумоустойчивости и новый метод LARoPE для точного выравнивания текста и аудио. Её вес — 99 миллионов параметров, а ONNX-артефакты занимают 404 МБ. Выходной аудиопоток — 44.1 кГц, 16-битный WAV без апсемплинга.
Производительность: 20 секунд на минуту речи — это нормально?
На Onyx Boox Go 6 (e-ink ридер) Supertonic 3 синтезирует минуту речи за 20 секунд (RTF 0.3×). В документации упоминается поддержка Raspberry Pi, но без бенчмарков на устройствах с 1–2 ГБ RAM. Для офлайн-приложений, где задержка не критична (например, чтение книг или новостей на e-ink устройствах), такая производительность приемлема. В сценариях интерактивного общения (звонки, чат-боты) задержка уже становится проблемой.
Голосовой конструктор: что можно делать с голосами, а что — нет
Supertonic 3 поставляется с Voice Builder — инструментом для создания пользовательских голосовых профилей в формате JSON, совместимых с обеими версиями модели (v2 и v3). Голосовые профили и экспорты из Voice Builder подчиняются условиям Supertone, что ограничивает свободу их распространения и модификации. В документации не уточняется, можно ли свободно делиться сгенерированными голосами или изменять их для коммерческих проектов.
Текстовая нормализация: где Supertonic 3 выигрывает
Supertonic 3 корректно обрабатывает сложные выражения:
- финансовые (
$5.2M→ "five point two million dollars"), - телефонные номера (
(212) 555-0142 ext. 402), - технические единицы (
30kph→ "thirty kilometers per hour").
В документации утверждается, что четыре конкурирующие системы (ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS, Microsoft) не справляются с этими задачами. Однако нормализация лучше работает для английского и европейских языков; для азиатских языков (например, японского или корейского) качество может быть ниже.
Установка: барьеры и зависимости
Модели Supertonic 3 хранятся на Hugging Face в формате Git LFS. Для работы требуется клонировать репозиторий:
pip install supertonic
git clone https://huggingface.co/Supertone/supertonic-3 assets
Python SDK автоматически скачивает модели при первом запуске (auto_download=True), но для других языков (C++, Rust, Swift) требуется ручное скачивание. В браузере Supertonic 3 использует onnxruntime-web с поддержкой WebGPU — синтез речи возможен даже на устройствах без GPU, но требует современного браузера.
Где Supertonic 3 подходит, а где — нет
Supertonic 3 — не замена облачным TTS-системам в сценариях, требующих максимального качества на редких языках. Он не поддерживает GPU-ускорение, а качество синтеза на азиатских языках может оставлять желать лучшего. Голосовой конструктор требует покупки, а в документации нет объективных метрик качества (например, MOS).
Но для задач, где критичны приватность, низкая задержка и поддержка 31 языка, Supertonic 3 — один из лучших вариантов. Он подходит для e-ink ридеров, IoT-устройств и офлайн-приложений, где важнее скорость и локальность. Перед внедрением стоит протестировать модель на целевых языках и сценариях.