Makalah terpenting tahun 2025 bukan tentang peningkatan bertahap pada arsitektur Transformer. Ini tentang mengganti paradigma autoregresif berurutan dengan paradigma paralel dua arah. Makalah LLaDA 2.0 sepenuhnya membingkai ulang bagaimana saya berpikir tentang model difusi. Sampai sekarang, LLM difusi terasa seperti ide yang menarik, tetapi tidak ada yang bisa Anda jalankan pada skala 100B. Makalah ini mengubahnya. Ide mereka sangat sederhana: Ambil model autoregresif yang kuat dan ubah menjadi model difusi, daripada melatihnya dari awal. Para penulis menemukan cara melakukan ini tanpa menghancurkan pengetahuan model aslinya. Mereka menyebutnya "Jadwal Pemanasan Stabil Pembusukan." Alasannya sangat besar: Model difusi memiliki banyak manfaat: decoding paralel, kinerja penalaran yang kuat, kecepatan, dll. Saya menautkan ke makalah di bawah ini. Baca terus untuk melihat bagaimana kami dapat membangun model generasi berikutnya.