DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Sie können jetzt produktionsreife Text-zu-Sprache mit einer Latenz von unter 200 ms ausführen. Ein Open-Source-TTS-System hat gerade das Streaming in Echtzeit mit 150 ms Audioausgabe veröffentlicht. Es unterstützt Zero-Shot-Stimmenklonierung in neun Sprachen und vielen Dialekten. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Es streamt Text hinein, während Audio herausgestreamt wird. Kein vollständiges Satz-Puffern. Die Latenz bleibt niedrig, ohne die Audioqualität zu beeinträchtigen. Das passt zu Live-Agenten, Assistenten und interaktiven Apps. • Text-in und Audio-out laufen gleichzeitig • Die End-to-End-Latenz erreicht ~150 ms • Funktioniert mit Standard-GPU-Inferenz-Stacks 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Es klont Stimmen ohne sprecherspezifisches Training. Eine kurze Referenzaufnahme reicht aus. Die gleiche Stimme wird über Sprachen und Akzente hinweg übertragen. • Neun Hauptsprachen unterstützt • Cross-linguale Synthese bleibt konsistent • Sprecherähnlichkeit bleibt stabil 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Sie können Aussprache, Geschwindigkeit, Emotion und Lautstärke steuern. Zahlen und Symbole werden automatisch normalisiert. Es läuft als Dienst oder in Containern. ...

Top

Ranking

Favoriten