Accélération des LLMs de diffusion via un décodage parallèle adaptatif Excellent article sur l'accélération des LLMs de style diffusion (dLLMs) de 22x. Avec le cache KV, les accélérations peuvent être poussées jusqu'à 57x. Les dLLMs gaspillent souvent du temps : ils effectuent un remasquage inutile et un décodage lourd en padding lors du débruitage semi-autoregressif. Learn2PD ajoute deux astuces simples pour réduire ce gaspillage. Détection plus intelligente de "terminé" par token : Un petit modèle de filtre apprend à déterminer si un token est déjà correct. Une fois marqué "terminé", il n'est plus touché. Cela évite la boucle de remasquage constante et accélère considérablement le décodage. Arrêter lorsque la réponse se termine : Si le token de fin de texte apparaît, le décodage s'arrête immédiatement. Cela élimine d'énormes quantités de surcharge de padding, surtout pour les longues sorties. Ils obtiennent de grands gains de vitesse avec presque aucune perte de qualité. Sur GSM8K (problèmes mathématiques), la vitesse s'est améliorée de 22× à 1024 tokens avec une précision pratiquement inchangée. Pour des sorties plus longues, les accélérations deviennent encore plus importantes. Fonctionne avec le cache KV : Combinez avec des astuces de mise en cache, et vous pouvez pousser les accélérations à 57×, toujours avec une précision solide. Léger et facile à ajouter : Le filtre est juste un petit MLP avec ~2K paramètres. Vous ne réentraînez pas le modèle de base, vous entraînez simplement le filtre a posteriori et l'intégrez dans la boucle de décodage.