熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
加速擴散式 LLM 的自適應並行解碼
這篇論文探討了如何將擴散風格的 LLM(dLLMs)加速 22 倍。使用 KV 快取,速度提升可以進一步推高至 57 倍。
dLLMs 經常浪費時間:在半自回歸去噪過程中,它們進行不必要的重新遮罩和大量填充的解碼。Learn2PD 添加了兩個簡單的技巧來減少這些浪費。
每個標記的更智能的「完成」檢測:一個小型過濾模型學會判斷一個標記是否已經正確。一旦標記為「完成」,就不再觸碰。這避免了不斷的重新遮罩循環,並大大加快了解碼速度。
當答案結束時停止:如果出現結束標記,解碼立即停止。這消除了大量的填充開銷,特別是對於長輸出。
他們在幾乎沒有質量損失的情況下實現了大幅度的速度提升。在 GSM8K(數學問題)上,速度在 1024 個標記時提高了 22 倍,準確性基本保持不變。對於更長的輸出,速度提升甚至更大。
與 KV 快取配合使用:結合快取技巧,您可以將速度提升推高至 57 倍,仍然保持穩定的準確性。
輕量且易於添加:過濾器只是一個約 2K 參數的小型 MLP。您不需要重新訓練基礎模型,只需在事後訓練過濾器並將其放入解碼循環中。

熱門
排行
收藏