Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Теперь вы можете запускать текст-в-речь с производственной задержкой менее 200 мс.
Система TTS с открытым исходным кодом только что выпустила потоковую передачу в реальном времени с аудиовыходом 150 мс.
Она поддерживает клонирование голоса без обучения для девяти языков и многих диалектов.
𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲
Она передает текст, пока аудио выходит.
Нет буферизации полных предложений.
Задержка остается низкой без ухудшения качества звука.
Это подходит для живых агентов, помощников и интерактивных приложений.
• Ввод текста и вывод аудио происходят одновременно
• Конечная задержка достигает ~150 мс
• Работает с обычными стековыми системами GPU
𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀
Она клонирует голоса без специфического обучения для говорящего.
Одного короткого эталонного аудио достаточно.
Один и тот же голос передается на разных языках и акцентах.
• Поддерживаются девять основных языков
• Кросс-языковая синтез остается последовательным
• Сходство говорящего остается стабильным
𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
Вы можете контролировать произношение, скорость, эмоции и громкость.
Числа и символы нормализуются автоматически.
Это работает как сервис или внутри контейнеров.
...

Топ
Рейтинг
Избранное
