probando vibevoice para la clonación de un solo disparo y no estoy tan impresionado en comparación con e2-ff5-tts: tarda más en generar y el resultado no es convincente. he utilizado el modelo grande no cuantificado. además, hace que mi saludo suene como si fuera un goblin de Warcraft. ¿cuál prefieres?