Probando Vibevoice para la clonación de una sola vez y no estoy tan impresionado en comparación con E2-FF5-TTS: Lleva más tiempo generar y el resultado no es convincente. He utilizado el modelo grande no cuantitativo. También hace que mi hola suene como si fuera un duende de Warcraft. ¿Cuál prefieres?