Ich teste vibevoice für das One-Shot-Cloning und ich bin im Vergleich zu e2-ff5-tts nicht so beeindruckt: Es dauert länger, um zu generieren, und das Ergebnis ist nicht überzeugend. Ich habe das große Non-Quant-Modell verwendet. Außerdem klingt mein "Hallo", als wäre ich ein Warcraft-Goblin. Welches bevorzugst du?