Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель весит 99 миллионов параметров, но синтезирует минуту речи за 20 секунд даже на e-ink устройствах, что делает её привлекательной для офлайн-приложений.

Supertonic 3: как open-source TTS на CPU обходит облачные решения в скорости

Supertonic 3: плюсы и подводные камни on-device TTS

Supertonic 3 — первая open-source TTS-система на основе flow-matching, работающая на CPU в реальном времени. Модель использует архитектуру автоэнкодера речи, Self-Purifying Flow Matching для шумоустойчивости и новый метод LARoPE для точного выравнивания текста и аудио. Её вес — 99 миллионов параметров, а ONNX-артефакты занимают 404 МБ. Выходной аудиопоток — 44.1 кГц, 16-битный WAV без апсемплинга.


Производительность: 20 секунд на минуту речи — это нормально?

На Onyx Boox Go 6 (e-ink ридер) Supertonic 3 синтезирует минуту речи за 20 секунд (RTF 0.3×). В документации упоминается поддержка Raspberry Pi, но без бенчмарков на устройствах с 1–2 ГБ RAM. Для офлайн-приложений, где задержка не критична (например, чтение книг или новостей на e-ink устройствах), такая производительность приемлема. В сценариях интерактивного общения (звонки, чат-боты) задержка уже становится проблемой.


Голосовой конструктор: что можно делать с голосами, а что — нет

Supertonic 3 поставляется с Voice Builder — инструментом для создания пользовательских голосовых профилей в формате JSON, совместимых с обеими версиями модели (v2 и v3). Голосовые профили и экспорты из Voice Builder подчиняются условиям Supertone, что ограничивает свободу их распространения и модификации. В документации не уточняется, можно ли свободно делиться сгенерированными голосами или изменять их для коммерческих проектов.


Текстовая нормализация: где Supertonic 3 выигрывает

Supertonic 3 корректно обрабатывает сложные выражения:

  • финансовые ($5.2M → "five point two million dollars"),
  • телефонные номера ((212) 555-0142 ext. 402),
  • технические единицы (30kph → "thirty kilometers per hour").

В документации утверждается, что четыре конкурирующие системы (ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS, Microsoft) не справляются с этими задачами. Однако нормализация лучше работает для английского и европейских языков; для азиатских языков (например, японского или корейского) качество может быть ниже.


Установка: барьеры и зависимости

Модели Supertonic 3 хранятся на Hugging Face в формате Git LFS. Для работы требуется клонировать репозиторий:

pip install supertonic
git clone https://huggingface.co/Supertone/supertonic-3 assets

Python SDK автоматически скачивает модели при первом запуске (auto_download=True), но для других языков (C++, Rust, Swift) требуется ручное скачивание. В браузере Supertonic 3 использует onnxruntime-web с поддержкой WebGPU — синтез речи возможен даже на устройствах без GPU, но требует современного браузера.


Где Supertonic 3 подходит, а где — нет

Supertonic 3 — не замена облачным TTS-системам в сценариях, требующих максимального качества на редких языках. Он не поддерживает GPU-ускорение, а качество синтеза на азиатских языках может оставлять желать лучшего. Голосовой конструктор требует покупки, а в документации нет объективных метрик качества (например, MOS).

Но для задач, где критичны приватность, низкая задержка и поддержка 31 языка, Supertonic 3 — один из лучших вариантов. Он подходит для e-ink ридеров, IoT-устройств и офлайн-приложений, где важнее скорость и локальность. Перед внедрением стоит протестировать модель на целевых языках и сценариях.

Read more

Ubuntu Core 26: монолитная ОС для устройств с длительным сроком службы

Ubuntu Core 26: монолитная ОС для устройств с длительным сроком службы

Canonical выпустила Ubuntu Core 26 — минимальную неизменяемую ОС для встраиваемых систем с поддержкой безопасности до 15 лет. Монолитный образ, атомарные обновления и аппаратная защита ключей делают её подходящей для медицинского оборудования, промышленных контроллеров и сетевых шлюзов.

HyperFrames: как HTML превращается в детерминированное видео

HyperFrames: как HTML превращается в детерминированное видео

Фреймворк HyperFrames от HeyGen рендерит HTML в видео с гарантией воспроизводимости кадр в кадр. Без React, без проприетарных форматов — только headless Chrome и FFmpeg. Подходит для CI/CD и агентских пайплайнов, но требует seekable-анимации и Node.js 22+.

Open Design: как локальный open-source инструмент меняет работу AI-агентов с дизайном

Open Design: как локальный open-source инструмент меняет работу AI-агентов с дизайном

Open Design (OD) — первый open-source инструмент, который превращает 16+ AI-агентов в команду дизайнеров, храня все данные и вычисления на стороне пользователя. Вместо закрытых платформ он использует DESIGN.md и BRAND.md, версионируемые через Git, и требует заполнения бриф-формы перед генерацией.

Samsung и профсоюз на грани: как 18-дневная забастовка угрожает глобальным поставкам чипов

Samsung и профсоюз на грани: как 18-дневная забастовка угрожает глобальным поставкам чипов

Переговоры Samsung с профсоюзом SELU зашли в тупик: профсоюз требует 15% прибыли в виде бонусов, компания предлагает 10%. Забастовка с 21 мая грозит парализовать производство памяти и логических чипов, усиливая отток инженеров к SK Hynix.