Przyspieszanie LLM-ów dyfuzyjnych za pomocą adaptacyjnego równoległego dekodowania Świetny artykuł na temat przyspieszania LLM-ów w stylu dyfuzyjnym (dLLM) o 22x. Dzięki pamięci KV, przyspieszenia można jeszcze zwiększyć do 57x. dLLM-y często marnują czas: wykonują niepotrzebne ponowne maskowanie i dekodowanie z dużą ilością wypełnienia podczas pół-autoregresywnego odszumiania. Learn2PD dodaje dwa proste triki, aby zredukować te straty. Inteligentniejsze wykrywanie „zrobione” dla każdego tokena: Mały model filtrujący uczy się rozpoznawać, czy token jest już poprawny. Gdy zostanie oznaczony jako „zrobiony”, nie jest już dotykany. To unika ciągłej pętli ponownego maskowania i znacznie przyspiesza dekodowanie. Zatrzymaj się, gdy odpowiedź się kończy: Jeśli token końca tekstu się pojawi, dekodowanie zatrzymuje się natychmiast. To eliminuje ogromne ilości nadmiaru wypełnienia, szczególnie dla długich wyników. Osiągają duże przyspieszenia z prawie żadną utratą jakości. Na GSM8K (problemy matematyczne) prędkość poprawiła się 22× przy 1024 tokenach, a dokładność pozostała praktycznie niezmieniona. Dla dłuższych wyników przyspieszenia są jeszcze większe. Działa z pamięcią KV: Połączenie z trikami pamięciowymi pozwala na zwiększenie przyspieszeń do 57×, wciąż z solidną dokładnością. Lekki i łatwy do dodania: Filtr to tylko małe MLP z ~2K parametrami. Nie trenujesz ponownie modelu bazowego, tylko trenujesz filtr post-hoc i wrzucasz go do pętli dekodowania.