DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Vous pouvez désormais exécuter un système de synthèse vocale de qualité production avec une latence inférieure à 200 ms. Un système TTS open-source vient de livrer un streaming en temps réel avec une sortie audio de 150 ms. Il prend en charge le clonage vocal en zéro-shot dans neuf langues et de nombreux dialectes. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Il diffuse le texte pendant que l'audio est diffusé. Pas de mise en mémoire tampon de phrases complètes. La latence reste faible sans dégrader la qualité audio. Cela convient aux agents en direct, aux assistants et aux applications interactives. • Le texte et l'audio fonctionnent simultanément • La latence de bout en bout atteint ~150 ms • Fonctionne avec des piles d'inférence GPU standard 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Il clone des voix sans formation spécifique à un locuteur. Une courte référence audio suffit. La même voix se transfère à travers les langues et les accents. • Neuf langues majeures prises en charge • La synthèse interlinguale reste cohérente • La similarité des locuteurs reste stable 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Vous pouvez contrôler la prononciation, la vitesse, l'émotion et le volume. Les chiffres et les symboles se normalisent automatiquement. Il fonctionne comme un service ou à l'intérieur de conteneurs. ...

Meilleurs

Classement

Favoris