2025年の最も重要な論文は、トランスフォーマーアーキテクチャの段階的な改善についてではありません。 それは、その連続的で自己退行的なパラダイムを並行的で双方向のパラダイムに置き換えることです。 LLaDA 2.0の論文は、私の拡散モデルに対する考え方を完全に再構築しています。 これまで、拡散型LLMは興味深いアイデアに思えましたが、100Bスケールで動かせるものには程遠いものでした。 この論文はそれを変えます。 彼らの考えは非常にシンプルです: 強力な自己回帰モデルを一から訓練するのではなく、拡散モデルに変換してください。 著者たちは、元のモデルの知識を破壊することなくこれを実現する方法を見つけ出しました。彼らはこれを「ウォームアップ-厩舎-崩壊スケジュール」と呼んでいます。 これが大きな理由です: 拡散モデルには多くの利点があります:並列復号、強力な推論性能、速度などです。 以下に論文へのリンクを貼ります。 次世代モデルをどのように構築できるか、ぜひ読み進めてください。