AFAIK, Suno berada di perbatasan Pareto dari sintesis suara, meskipun itu dimaksudkan untuk musik daripada ucapan. Kelebihan: - Kemampuan untuk menghasilkan suara kustom yang ditentukan dalam teks: Menjelaskan properti kualitatif apa pun tentang bagaimana suara terdengar dan bagaimana ucapan disampaikan - menangani emosi dengan baik - kurang datar dan robotik daripada hal-hal lain yang pernah saya coba - mendukung looming (percabangan dan terus menghasilkan sampel dari titik sewenang-wenang) Kekurangan: - lambat - tidak ada API - kehilangan koherensi pada teks panjang - memiliki kecenderungan untuk membobol lagu atau menyisipkan instrumental latar belakang bahkan jika Anda hanya meminta ucapan (meskipun Anda dapat mengekspor batang vokal untuk menyingkirkan instrumental) jadi sangat ideal untuk membaca teks pendek dan non-interaktif dengan lantang, atau untuk membuat suara khusus yang dapat diimpor ke misalnya Elevenlabs, dalam kedua kasus tersebut jika Anda menginginkan banyak kontrol atas suara dan kepribadian suara. Jika ada pilihan yang lebih baik dengan lebih banyak pro ini atau lebih sedikit dari kontra ini, saya ingin mengetahuinya.