Du kan nu köra produktionsklassad text-till-tal med latens under 200 ms. Ett öppen källkodssystem för TTS levererade precis realtidsstreaming med 150 ms ljudutgång. Den stöder zero-shot-röstkloning över nio språk och många dialekter. Bi-streaming möjliggör röst i realtid Den strömmar in text medan ljudet strömmar ut. Ingen fullständig meningsbuffring. Latensen förblir låg utan att försämra ljudkvaliteten. Detta passar live-agenter, assistenter och interaktiva appar. • Text-in och ljud-ut körs samtidigt • End-to-end-latens når ~150 ms • Fungerar med standard-GPU-inferensstackar Zero-shot röstkloning fungerar över olika språk Den klonar röster utan talarspecifik träning. En kort referensljud räcker. Samma röst överförs över språk och accenter. • Nio huvudspråk som stöds • Tvärspråkig syntes förblir konsekvent • Talarlikheten förblir stabil Det ger finjustering för produktionen Du kan kontrollera uttal, hastighet, känsla och volym. Siffror och symboler normaliseras automatiskt. Den körs som en tjänst eller i containrar. ...