тестирую vibevoice для одноразового клонирования, и я не так впечатлён по сравнению с e2-ff5-tts: требуется больше времени для генерации, и результат неубедителен. Я использовал большую неквантованную модель. Также это заставляет моё "привет" звучать так, как будто я гоблин из Warcraft. Какой из них ты предпочитаешь?