Menguji VibeVoice untuk kloning satu tembakan & saya tidak terlalu terkesan dibandingkan dengan E2-FF5-TTS: membutuhkan lebih banyak waktu untuk menghasilkan & hasilnya tidak meyakinkan. Saya telah menggunakan model non kuantitatif besar. Juga membuat haloku terdengar seperti aku adalah goblin Warcraft. Mana yang Anda sukai?