Nyní můžete provozovat produkční převod textu na řeč s latencí pod 200 ms. Open-source TTS systém právě dodal streamování v reálném čase s výstupem zvuku 150ms. Podporuje klonování hlasu bez záběrů napříč devíti jazyky a mnoha dialekty. Bi-streaming umožňuje hlas v reálném čase Text se přenáší dovnitř, zatímco zvuk se streamuje ven. Žádné ukládání celé věty. Latence zůstává nízká, aniž by se zhoršila kvalita zvuku. To odpovídá živým agentům, asistentům a interaktivním aplikacím. • Text-in a audio-out běží současně • Latence od začátku do konce dosahuje ~150 ms • Pracuje se standardními GPU inferenčními zásobníky Zero-shot klonování hlasu funguje napříč jazyky Klonuje hlasy bez tréninku specifického pro řečníky. Stačí jedno krátké referenční audio. Stejný hlas se přenáší napříč jazyky a přízvuky. • Devět hlavních podporovaných jazyků • Křížová syntéza zůstává konzistentní • Podobnost reproduktorů zůstává stabilní Přidává jemnou kontrolu pro výrobu Můžete ovládat výslovnost, rychlost, emoce a hlasitost. Čísla a symboly se normalizují automaticky. Funguje jako služba nebo uvnitř kontejnerů. ...