Modele językowe dyfuzji (DLM) są dowodowo optymalnymi równoległymi próbkami! W moim nowym artykule z @nhaghtal i @wjmzbmr1 pokazujemy, że DLM mogą próbować rozkładów przy najmniejszej możliwej liczbie kroków, a także przy najmniejszej możliwej pamięci z rewizją/ponownym maskowaniem.
Czy transformery mogą robić wszystko i cofać to również?
Sprawdź mojego bloga na temat tego, czy modele językowe są surjektywne, injektywne czy odwracalne!