热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
您现在可以以低于200毫秒的延迟运行生产级文本转语音。
一个开源的TTS系统刚刚推出了150毫秒音频输出的实时流式传输。
它支持九种语言和多种方言的零样本语音克隆。
𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲
它在音频流出时流入文本。
没有完整句子的缓冲。
延迟保持低而不降低音频质量。
这适合实时代理、助手和互动应用。
• 文本输入和音频输出同时进行
• 端到端延迟达到约150毫秒
• 与标准GPU推理堆栈兼容
𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀
它在没有特定说话者训练的情况下克隆声音。
一段简短的参考音频就足够了。
同样的声音可以跨语言和口音转移。
• 支持九种主要语言
• 跨语言合成保持一致
• 说话者相似性保持稳定
𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
您可以控制发音、速度、情感和音量。
数字和符号会自动规范化。
它可以作为服务运行或在容器内运行。
...

热门
排行
收藏
