熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
您現在可以以低於 200 毫秒的延遲運行生產級的文本轉語音。
一個開源的 TTS 系統剛剛推出了 150 毫秒音頻輸出的實時流媒體。
它支持九種語言和多種方言的零樣本語音克隆。
𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲
它在音頻流出時流入文本。
沒有完整句子的緩衝。
延遲保持低而不降低音質。
這適合實時代理、助手和互動應用。
• 文本輸入和音頻輸出同時運行
• 端到端延遲約為 150 毫秒
• 與標準 GPU 推理堆棧兼容
𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀
它在沒有特定於說話者的訓練的情況下克隆聲音。
一段短的參考音頻就足夠了。
同樣的聲音可以跨語言和口音轉移。
• 支持九種主要語言
• 跨語言合成保持一致
• 說話者相似性保持穩定
𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
您可以控制發音、速度、情感和音量。
數字和符號會自動標準化。
它可以作為服務運行或在容器內運行。
...

熱門
排行
收藏
