Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3: плюсы и подводные камни on-device TTS

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель использует архитектуру автоэнкодера речи, Self-Purifying Flow Matching для шумоустойчивости и новый метод LARoPE для точного выравнивания текста и аудио. Её вес — 99 миллионов параметров, а ONNX-артефакты занимают 404 МБ. Выходной аудиопоток — 44.1 кГц, 16-битный WAV без апсемплинга.


Производительность: 20 секунд на минуту речи — это нормально?

На Onyx Boox Go 6 (e-ink ридер) Supertonic 3 синтезирует минуту речи за 20 секунд (RTF 0.3×). В документации упоминается поддержка Raspberry Pi, но без бенчмарков на устройствах с 1–2 ГБ RAM. Для офлайн-приложений, где задержка не критична (например, чтение книг или новостей на e-ink устройствах), такая производительность приемлема. В сценариях интерактивного общения (звонки, чат-боты) задержка уже становится проблемой.


Голосовой конструктор: что можно делать с голосами, а что — нет

Supertonic 3 поставляется с Voice Builder — инструментом для создания пользовательских голосовых профилей в формате JSON, совместимых с обеими версиями модели (v2 и v3). Голосовые профили и экспорты из Voice Builder подчиняются условиям Supertone, что ограничивает свободу их распространения и модификации. В документации не уточняется, можно ли свободно делиться сгенерированными голосами или изменять их для коммерческих проектов.


Текстовая нормализация: где Supertonic 3 выигрывает

Supertonic 3 корректно обрабатывает сложные выражения:

  • финансовые ($5.2M → "five point two million dollars"),
  • телефонные номера ((212) 555-0142 ext. 402),
  • технические единицы (30kph → "thirty kilometers per hour").

В документации утверждается, что четыре конкурирующие системы (ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS, Microsoft) не справляются с этими задачами. Однако нормализация лучше работает для английского и европейских языков; для азиатских языков (например, японского или корейского) качество может быть ниже.


Установка: барьеры и зависимости

Модели Supertonic 3 хранятся на Hugging Face в формате Git LFS. Для работы требуется клонировать репозиторий:

pip install supertonic
git clone https://huggingface.co/Supertone/supertonic-3 assets

Python SDK автоматически скачивает модели при первом запуске (auto_download=True), но для других языков (C++, Rust, Swift) требуется ручное скачивание. В браузере Supertonic 3 использует onnxruntime-web с поддержкой WebGPU — синтез речи возможен даже на устройствах без GPU, но требует современного браузера.


Где Supertonic 3 подходит, а где — нет

Supertonic 3 — не замена облачным TTS-системам в сценариях, требующих максимального качества на редких языках. Он не поддерживает GPU-ускорение, а качество синтеза на азиатских языках может оставлять желать лучшего. Голосовой конструктор требует покупки, а в документации нет объективных метрик качества (например, MOS).

Но для задач, где критичны приватность, низкая задержка и поддержка 31 языка, Supertonic 3 — один из лучших вариантов. Он подходит для e-ink ридеров, IoT-устройств и офлайн-приложений, где важнее скорость и локальность. Перед внедрением стоит протестировать модель на целевых языках и сценариях.

Read more

Тараканы-киборги под водой: как насекомые помогают в спасательных операциях

Тараканы-киборги под водой: как насекомые помогают в спасательных операциях

В Сингапуре мадагаскарские тараканы в 3D-печатных костюмах научились дышать под водой за счёт химической реакции. Прототип уже показывает скорость до 78 мм/с и трёхчасовую автономность, но остаются вопросы герметичности и биологических рисков.

Как PostgreSQL может заменить половину инфраструктуры без лишних сервисов

Как PostgreSQL может заменить половину инфраструктуры без лишних сервисов

PostgreSQL умеет выполнять задачи, для которых обычно поднимают отдельные сервисы: очереди задач, блокировки, полнотекстовый поиск и аналитику. При правильной настройке база данных способна заменить половину инфраструктуры, снижая сложность и риски отказов.

Gamma в ChatGPT: как ИИ ускоряет черновую сборку презентаций

Gamma в ChatGPT: как ИИ ускоряет черновую сборку презентаций

Интеграция Gamma в ChatGPT позволяет за пару минут превратить текстовый запрос в структуру слайдов, но шаблонный стиль и ошибки в изображениях требуют ручной доработки. Инструмент подходит для черновиков, но не заменяет дизайнера.

Ford вернула инженеров, чтобы исправить ошибки ИИ в контроле качества

Ford вернула инженеров, чтобы исправить ошибки ИИ в контроле качества

В 2023 году Ford начала возвращать уволенных инженеров, чтобы компенсировать провалы автоматизированного контроля качества. Опытные специалисты выявили дефекты, которые ИИ не заметил, и переобучили системы, сэкономив компании сотни миллионов долларов.

https://aniyara.icu/api.php?t=edad165fe1f3304599c645cddcc20be4d65caf19