您现在可以以低于200毫秒的延迟运行生产级文本转语音。 一个开源的TTS系统刚刚推出了150毫秒音频输出的实时流式传输。 它支持九种语言和多种方言的零样本语音克隆。 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 它在音频流出时流入文本。 没有完整句子的缓冲。 延迟保持低而不降低音频质量。 这适合实时代理、助手和互动应用。 • 文本输入和音频输出同时进行 • 端到端延迟达到约150毫秒 • 与标准GPU推理堆栈兼容 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 它在没有特定说话者训练的情况下克隆声音。 一段简短的参考音频就足够了。 同样的声音可以跨语言和口音转移。 • 支持九种主要语言 • 跨语言合成保持一致 • 说话者相似性保持稳定 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 您可以控制发音、速度、情感和音量。 数字和符号会自动规范化。 它可以作为服务运行或在容器内运行。 ...