一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

通过自适应并行解码加速扩散式LLM 一篇关于通过22倍加速扩散式LLM（dLLMs）的优秀论文。使用KV缓存，速度提升可以进一步推至57倍。 dLLMs经常浪费时间：在半自回归去噪过程中，它们执行不必要的重标记和填充密集的解码。Learn2PD增加了两个简单的技巧来减少这种浪费。每个token的智能“完成”检测：一个小型过滤模型学习判断一个token是否已经正确。一旦标记为“完成”，它就不会再被触碰。这避免了不断的重标记循环，并大大加快了解码速度。当答案结束时停止：如果出现结束文本token，解码立即停止。这消除了大量的填充开销，尤其是对于长输出。他们在几乎没有质量损失的情况下实现了巨大的速度提升。在GSM8K（数学问题）上，速度在1024个token时提高了22倍，准确性基本保持不变。对于更长的输出，速度提升甚至更大。与KV缓存兼容：结合缓存技巧，您可以将速度提升推至57倍，仍然保持良好的准确性。轻量且易于添加：该过滤器只是一个小型MLP，参数约为2K。您不需要重新训练基础模型，只需事后训练过滤器并将其放入解码循环中。