通过自适应并行解码加速扩散式LLM 一篇关于通过22倍加速扩散式LLM(dLLMs)的优秀论文。使用KV缓存,速度提升可以进一步推至57倍。 dLLMs经常浪费时间:在半自回归去噪过程中,它们执行不必要的重标记和填充密集的解码。Learn2PD增加了两个简单的技巧来减少这种浪费。 每个token的智能“完成”检测:一个小型过滤模型学习判断一个token是否已经正确。一旦标记为“完成”,它就不会再被触碰。这避免了不断的重标记循环,并大大加快了解码速度。 当答案结束时停止:如果出现结束文本token,解码立即停止。这消除了大量的填充开销,尤其是对于长输出。 他们在几乎没有质量损失的情况下实现了巨大的速度提升。在GSM8K(数学问题)上,速度在1024个token时提高了22倍,准确性基本保持不变。对于更长的输出,速度提升甚至更大。 与KV缓存兼容:结合缓存技巧,您可以将速度提升推至57倍,仍然保持良好的准确性。 轻量且易于添加:该过滤器只是一个小型MLP,参数约为2K。您不需要重新训练基础模型,只需事后训练过滤器并将其放入解码循环中。