Насколько я знаю, Suno находится на границе Парето синтеза голоса, хотя он предназначен для музыки, а не для речи. плюсы: - возможность генерировать пользовательские голоса, указанные в тексте: опишите любые качественные свойства того, как звучит голос и как подается речь - хорошо передает эмоции - менее плоский и роботизированный, чем другие вещи, которые я пробовал - поддерживает наложение (разветвление и продолжение сгенерированных образцов с произвольных точек) минусы: - медленный - нет API - теряет связность на длинных текстах - имеет тенденцию переходить в песню или вставлять фоновую инструментальную музыку, даже если вы просите только речь (хотя вы можете экспортировать вокальные дорожки, чтобы избавиться от инструменталов) поэтому он идеален для чтения вслух коротких, неинтерактивных текстов или для создания пользовательских голосов, которые можно импортировать, например, в Elevenlabs, в обоих случаях, если вы хотите иметь много контроля над звуком и личностью голоса. Если есть лучший вариант с большим количеством этих плюсов или меньшим количеством этих минусов, я был бы рад узнать об этом.