热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
通过自适应并行解码加速扩散式LLM
一篇关于通过22倍加速扩散式LLM(dLLMs)的优秀论文。使用KV缓存,速度提升可以进一步推至57倍。
dLLMs经常浪费时间:在半自回归去噪过程中,它们执行不必要的重标记和填充密集的解码。Learn2PD增加了两个简单的技巧来减少这种浪费。
每个token的智能“完成”检测:一个小型过滤模型学习判断一个token是否已经正确。一旦标记为“完成”,它就不会再被触碰。这避免了不断的重标记循环,并大大加快了解码速度。
当答案结束时停止:如果出现结束文本token,解码立即停止。这消除了大量的填充开销,尤其是对于长输出。
他们在几乎没有质量损失的情况下实现了巨大的速度提升。在GSM8K(数学问题)上,速度在1024个token时提高了22倍,准确性基本保持不变。对于更长的输出,速度提升甚至更大。
与KV缓存兼容:结合缓存技巧,您可以将速度提升推至57倍,仍然保持良好的准确性。
轻量且易于添加:该过滤器只是一个小型MLP,参数约为2K。您不需要重新训练基础模型,只需事后训练过滤器并将其放入解码循环中。

热门
排行
收藏