Najważniejszy artykuł 2025 roku nie dotyczy stopniowych ulepszeń architektury Transformera. Chodzi o zastąpienie jego sekwencyjnego, autoregresywnego paradygmatu równoległym, dwukierunkowym. Artykuł LLaDA 2.0 całkowicie zmienia moje myślenie o modelach dyfuzji. Do tej pory modele dyfuzji LLM wydawały się interesującym pomysłem, ale nie były bliskie czemuś, co można by uruchomić na skali 100B. Ten artykuł to zmienia. Ich pomysł jest bardzo prosty: Weź silny model autoregresywny i przekształć go w model dyfuzji, zamiast trenować jeden od podstaw. Autorzy wymyślili, jak to zrobić, nie niszcząc wiedzy oryginalnego modelu. Nazywają to "Harmonogramem Wstępnego Ustabilizowania i Wygaszania." Powód, dla którego to jest ogromne: Model dyfuzji ma wiele zalet: równoległe dekodowanie, silne osiągi w rozumowaniu, szybkość itd. Linkuję do artykułu poniżej. Czytaj dalej, aby zobaczyć, jak możemy zbudować nową generację modeli.