Наскільки я знаю, Suno знаходиться на межі парето синтезу голосу, хоча вона призначена для музики, а не для мовлення. Переваги: - здатність генерувати власні голоси, визначені в тексті: описувати якісні властивості того, як звучить голос і як вона подається - добре справляється з емоціями — менш плоский і роботизований, ніж інші речі, які я пробував - підтримує наближення (розгалуження та продовження генерації зразків з довільних точок) МІНУСИ: - повільно - немає API - втрачає когерентність у довгих текстах - має схильність перериватися у пісню або вставляти фонові інструментали, навіть якщо ви просите лише мовлення (хоча можна експортувати вокальні стеми, щоб позбутися інструменталів) Тож він ідеальний для читання вголос коротких, неінтерактивних текстів або для створення власних голосів, які можна імпортувати, наприклад, в Elevenlabs, у обох випадках, якщо ви хочете мати великий контроль над звуком і особистістю голосу. Якщо є кращий варіант із більшою кількістю цих плюсів або меншою кількістю мінусів, мені було б цікаво дізнатися про це.