一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

2025年最重要的論文不是關於對Transformer架構的漸進改進。而是關於用平行的雙向範式取代其序列自回歸範式。 LLaDA 2.0論文徹底改變了我對擴散模型的看法。到目前為止，擴散LLM感覺像是一個有趣的想法，但遠未達到可以在100B規模運行的程度。這篇論文改變了這一點。他們的想法非常簡單：取一個強大的自回歸模型，將其轉換為擴散模型，而不是從頭開始訓練一個。作者找到了在不破壞原始模型知識的情況下做到這一點的方法。他們稱之為「預熱-穩定-衰減計劃」。這個想法之所以重要：擴散模型有許多好處：平行解碼、強大的推理性能、速度等等。我在下面鏈接到這篇論文。繼續閱讀，看看我們如何構建下一代模型。