Testarea VibeVoice pentru clonarea one-shot și nu sunt atât de impresionat în comparație cu E2-FF5-TTS: durează mai mult timp pentru a genera și rezultatul nu este convingător. Am folosit modelul mare non-cantiv. De asemenea, îmi face salutul să sune ca și cum aș fi un spiriduș Warcraft. Pe care îl preferi?