测试 vibevoice 的一次性克隆,与 e2-ff5-tts 相比,我并不太满意:生成所需时间更长,结果也不令人信服。 我使用的是大型非量化模型。它让我说的“你好”听起来像是一个魔兽世界的哥布林。 你更喜欢哪个?