Acelerando LLMs de Difusão via Decodificação Paralela Adaptativa Ótimo artigo sobre como acelerar LLMs de estilo difusão (dLLMs) em 22x. Com cache KV, os aumentos de velocidade podem ser ainda mais elevados para 57x. dLLMs frequentemente perdem tempo: realizam remapeamentos desnecessários e decodificação pesada em padding durante a desnoising semi-autoregressiva. O Learn2PD adiciona dois truques simples para cortar esse desperdício. Detecção mais inteligente de "feito" por token: Um pequeno modelo de filtro aprende a identificar se um token já está correto. Uma vez marcado como "feito", nunca mais é tocado. Isso evita o loop constante de remapeamento e acelera muito a decodificação. Parar quando a resposta termina: Se o token de Fim-de-Texte aparecer, a decodificação para imediatamente. Isso elimina enormes quantidades de sobrecarga de padding, especialmente para saídas longas. Eles conseguem grandes aumentos de velocidade com quase nenhuma perda de qualidade. No GSM8K (problemas matemáticos), a velocidade melhorou 22× em 1024 tokens com a precisão basicamente inalterada. Para saídas mais longas, os aumentos de velocidade ficam ainda maiores. Funciona com cache KV: Combine com truques de cache, e você pode aumentar a velocidade para 57×, ainda com precisão sólida. Leve e fácil de adicionar: O filtro é apenas um pequeno MLP com ~2K parâmetros. Você não re-treina o modelo base, apenas treina o filtro posteriormente e o insere no loop de decodificação.