Ahora puedes ejecutar texto a voz de calidad de producción con una latencia inferior a 200 ms. Un sistema TTS de código abierto acaba de ofrecer streaming en tiempo real con salida de audio de 150 ms. Soporta clonación de voz sin disparo en nueve idiomas y muchos dialectos. El bi-streaming permite la voz en tiempo real Transmite texto mientras el audio sale. No hay buffer de frases completas. La latencia se mantiene baja sin degradar la calidad del audio. Esto se adapta a agentes en vivo, asistentes y aplicaciones interactivas. • Texto de entrada y salida de audio simultáneamente • La latencia de extremo a extremo alcanza los ~150 ms • Funciona con pilas estándar de inferencia de GPU La clonación de voz sin disparo funciona en varios idiomas Clona voces sin entrenamiento específico para el hablante. Un audio de referencia corto es suficiente. La misma voz se transmite entre idiomas y acentos. • Nueve lenguajes principales soportados • La síntesis cross-lingual se mantiene consistente • La similitud de altavoces se mantiene estable Añade un control fino para la producción Puedes controlar la pronunciación, la velocidad, la emoción y el volumen. Los números y símbolos se normalizan automáticamente. Funciona como servicio o dentro de contenedores. ...