test de vibevoice pour le clonage en une seule fois et je ne suis pas vraiment impressionné par rapport à e2-ff5-tts : cela prend plus de temps à générer et le résultat n'est pas convaincant. J'ai utilisé le grand modèle non quantifié. De plus, cela fait que mon bonjour ressemble à celui d'un gobelin de Warcraft. Lequel préfères-tu ?