sto testando vibevoice per il cloning one-shot e non sono così impressionato rispetto a e2-ff5-tts: ci mette più tempo a generare e il risultato non è convincente. Ho usato il modello large non quant. Inoltre, il mio "ciao" suona come se fossi un goblin di Warcraft. Quale preferisci?