DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

2025'in en önemli makalesi Transformer mimarisindeki kademeli iyileştirmelerle ilgili değil. Dizilmiş, otoregressif paradigmasını paralel, çift yönlü bir paradigma ile değiştirmekle ilgili. LLaDA 2.0 makalesi, difüzyon modelleri hakkındaki düşüncemi tamamen yeniden çerçeveliyor. Şimdiye kadar diffüzyon LLM'ler ilginç bir fikir gibi geliyordu ama 100B ölçekte çalıştırılabilecek bir şey değildi. Bu makale bunu değiştiriyor. Fikirleri çok basit: Güçlü bir otoregressif model alın ve onu sıfırdan eğitmek yerine bir difüzyon modeline dönüştürün. Yazarlar, orijinal modelin bilgisini yok etmeden bunu nasıl yapacaklarını buldular. Buna "Isınma-Stabil-Çürüme programı" diyorlar. Bunun büyük olmasının sebebi: Bir difüzyon modelinin birçok avantajı vardır: paralel kodlama, güçlü akıl yürütme performansı, hız vb. Aşağıdaki makaleye bağlantı veriyorum. Bir sonraki nesil modelleri nasıl inşa edebileceğimizi görmek için okumaya devam edin.

En İyiler

Sıralama

Takip Listesi