2025年最重要的論文不是關於對Transformer架構的漸進改進。 而是關於用平行的雙向範式取代其序列自回歸範式。 LLaDA 2.0論文徹底改變了我對擴散模型的看法。 到目前為止,擴散LLM感覺像是一個有趣的想法,但遠未達到可以在100B規模運行的程度。 這篇論文改變了這一點。 他們的想法非常簡單: 取一個強大的自回歸模型,將其轉換為擴散模型,而不是從頭開始訓練一個。 作者找到了在不破壞原始模型知識的情況下做到這一點的方法。他們稱之為「預熱-穩定-衰減計劃」。 這個想法之所以重要: 擴散模型有許多好處:平行解碼、強大的推理性能、速度等等。 我在下面鏈接到這篇論文。 繼續閱讀,看看我們如何構建下一代模型。