一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

您現在可以以低於 200 毫秒的延遲運行生產級的文本轉語音。一個開源的 TTS 系統剛剛推出了 150 毫秒音頻輸出的實時流媒體。它支持九種語言和多種方言的零樣本語音克隆。 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 它在音頻流出時流入文本。沒有完整句子的緩衝。延遲保持低而不降低音質。這適合實時代理、助手和互動應用。 • 文本輸入和音頻輸出同時運行 • 端到端延遲約為 150 毫秒 • 與標準 GPU 推理堆棧兼容 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 它在沒有特定於說話者的訓練的情況下克隆聲音。一段短的參考音頻就足夠了。同樣的聲音可以跨語言和口音轉移。 • 支持九種主要語言 • 跨語言合成保持一致 • 說話者相似性保持穩定 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 您可以控制發音、速度、情感和音量。數字和符號會自動標準化。它可以作為服務運行或在容器內運行。 ...