您現在可以以低於 200 毫秒的延遲運行生產級的文本轉語音。 一個開源的 TTS 系統剛剛推出了 150 毫秒音頻輸出的實時流媒體。 它支持九種語言和多種方言的零樣本語音克隆。 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 它在音頻流出時流入文本。 沒有完整句子的緩衝。 延遲保持低而不降低音質。 這適合實時代理、助手和互動應用。 • 文本輸入和音頻輸出同時運行 • 端到端延遲約為 150 毫秒 • 與標準 GPU 推理堆棧兼容 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 它在沒有特定於說話者的訓練的情況下克隆聲音。 一段短的參考音頻就足夠了。 同樣的聲音可以跨語言和口音轉移。 • 支持九種主要語言 • 跨語言合成保持一致 • 說話者相似性保持穩定 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 您可以控制發音、速度、情感和音量。 數字和符號會自動標準化。 它可以作為服務運行或在容器內運行。 ...