Testar Vibevoice för one-shot kloning och jag är inte så imponerad jämfört med E2-FF5-TTS: tar mer tid att generera och resultatet är inte övertygande. Jag har använt den stora icke kvantmodellen. Det får också mina hej att låta som om jag är en Warcraft Goblin. Vilken föredrar du?