Accelerare i LLM di diffusione tramite decodifica parallela adattiva Ottimo articolo su come velocizzare i LLM in stile diffusione (dLLM) di 22 volte. Con la cache KV, i miglioramenti possono essere ulteriormente spinti fino a 57 volte. I dLLM spesso sprecano tempo: eseguono rimodellamenti non necessari e decodifica pesante in padding durante la denoising semi-autoregressiva. Learn2PD aggiunge due semplici trucchi per ridurre questo spreco. Rilevamento "fatto" più intelligente per token: un piccolo modello filtro impara a capire se un token è già corretto. Una volta contrassegnato come "fatto", non viene mai più toccato. Questo evita il costante ciclo di rimodellamento e accelera notevolmente la decodifica. Fermati quando la risposta finisce: se appare il token di fine testo, la decodifica si ferma immediatamente. Questo elimina enormi quantità di sovraccarico di padding, specialmente per output lunghi. Ottengono grandi aumenti di velocità con quasi nessuna perdita di qualità. Su GSM8K (problemi matematici), la velocità è migliorata di 22× a 1024 token con precisione praticamente invariata. Per output più lunghi, i miglioramenti di velocità diventano ancora più grandi. Funziona con la cache KV: combinato con trucchi di caching, puoi spingere i miglioramenti di velocità fino a 57×, mantenendo comunque una buona precisione. Leggero e facile da aggiungere: il filtro è solo un piccolo MLP con ~2K parametri. Non è necessario riaddestrare il modello di base, basta addestrare il filtro post-hoc e inserirlo nel ciclo di decodifica.