Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przyspieszanie LLM-ów dyfuzyjnych za pomocą adaptacyjnego równoległego dekodowania
Świetny artykuł na temat przyspieszania LLM-ów w stylu dyfuzyjnym (dLLM) o 22x. Dzięki pamięci KV, przyspieszenia można jeszcze zwiększyć do 57x.
dLLM-y często marnują czas: wykonują niepotrzebne ponowne maskowanie i dekodowanie z dużą ilością wypełnienia podczas pół-autoregresywnego odszumiania. Learn2PD dodaje dwa proste triki, aby zredukować te straty.
Inteligentniejsze wykrywanie „zrobione” dla każdego tokena: Mały model filtrujący uczy się rozpoznawać, czy token jest już poprawny. Gdy zostanie oznaczony jako „zrobiony”, nie jest już dotykany. To unika ciągłej pętli ponownego maskowania i znacznie przyspiesza dekodowanie.
Zatrzymaj się, gdy odpowiedź się kończy: Jeśli token końca tekstu się pojawi, dekodowanie zatrzymuje się natychmiast. To eliminuje ogromne ilości nadmiaru wypełnienia, szczególnie dla długich wyników.
Osiągają duże przyspieszenia z prawie żadną utratą jakości. Na GSM8K (problemy matematyczne) prędkość poprawiła się 22× przy 1024 tokenach, a dokładność pozostała praktycznie niezmieniona. Dla dłuższych wyników przyspieszenia są jeszcze większe.
Działa z pamięcią KV: Połączenie z trikami pamięciowymi pozwala na zwiększenie przyspieszeń do 57×, wciąż z solidną dokładnością.
Lekki i łatwy do dodania: Filtr to tylko małe MLP z ~2K parametrami. Nie trenujesz ponownie modelu bazowego, tylko trenujesz filtr post-hoc i wrzucasz go do pętli dekodowania.

Najlepsze
Ranking
Ulubione