Testando o Vibevoice para a clonagem one-shot e não estou tão impressionado em comparação com o E2-FF5-TTS: leva mais tempo para gerar e o resultado não é convincente. Eu usei o modelo grande não quantitativo. Também faz meu olá soar como se eu fosse um goblin de Warcraft. Qual você prefere?