2025'in en önemli makalesi Transformer mimarisindeki kademeli iyileştirmelerle ilgili değil. Dizilmiş, otoregressif paradigmasını paralel, çift yönlü bir paradigma ile değiştirmekle ilgili. LLaDA 2.0 makalesi, difüzyon modelleri hakkındaki düşüncemi tamamen yeniden çerçeveliyor. Şimdiye kadar diffüzyon LLM'ler ilginç bir fikir gibi geliyordu ama 100B ölçekte çalıştırılabilecek bir şey değildi. Bu makale bunu değiştiriyor. Fikirleri çok basit: Güçlü bir otoregressif model alın ve onu sıfırdan eğitmek yerine bir difüzyon modeline dönüştürün. Yazarlar, orijinal modelin bilgisini yok etmeden bunu nasıl yapacaklarını buldular. Buna "Isınma-Stabil-Çürüme programı" diyorlar. Bunun büyük olmasının sebebi: Bir difüzyon modelinin birçok avantajı vardır: paralel kodlama, güçlü akıl yürütme performansı, hız vb. Aşağıdaki makaleye bağlantı veriyorum. Bir sonraki nesil modelleri nasıl inşa edebileceğimizi görmek için okumaya devam edin.