Que yo sepa, Suno está en la frontera de Pareto de la síntesis de voz, aunque está pensada para la música y no para el habla. Ventajas: - capacidad para generar voces personalizadas especificadas en el texto: describe cualquier propiedad cualitativa sobre cómo suena la voz y cómo se pronuncia el habla - maneja bien las emociones - menos plano y robótico que otras cosas que he probado - soporta el looming (ramificación y continuación de muestras generadas desde puntos arbitrarios) Contras: - Despacio - sin API - pierde coherencia sobre textos largos - tiende a interrumpir la canción o insertar instrumentales de fondo incluso si solo pides hablar (aunque puedes exportar stems vocales para eliminar instrumentales) Así que es ideal para leer en voz alta textos cortos y no interactivos, o para crear voces personalizadas que puedan importarse, por ejemplo, a Elevenlabs, en ambos casos si quieres mucho control sobre el sonido y la personalidad de la voz. Si hay una opción mejor con más de estos pros o menos de estos contras, me encantaría saberlo.