DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Acelerando LLMs de difusão por meio de decodificação paralela adaptativa Ótimo artigo sobre como acelerar LLMs de estilo de difusão (dLLMs) em 22x. Com o cache KV, as acelerações podem ser aumentadas para 57x. Os dLLMs geralmente perdem tempo: eles realizam remascaramento desnecessário e decodificação pesada de preenchimento durante a redução de ruído semi-autorregressiva. Learn2PD adiciona dois truques simples para cortar esse desperdício. Detecção "concluída" mais inteligente por token: um pequeno modelo de filtro aprende a dizer se um token já está correto. Depois de marcado como "concluído", ele nunca mais é tocado. Isso evita o loop de remascaramento constante e acelera muito a decodificação. Parar quando a resposta terminar: se o token de fim de texto aparecer, a decodificação será interrompida imediatamente. Isso mata grandes quantidades de sobrecarga de preenchimento, especialmente para saídas longas. Eles alcançam grandes aumentos de velocidade quase sem perda de qualidade. No GSM8K (problemas matemáticos), a velocidade melhorou 22× em 1024 tokens com precisão basicamente inalterada. Para saídas mais longas, as acelerações ficam ainda maiores. Funciona com cache KV: Combine com truques de cache e você pode aumentar as acelerações para 57×, ainda com precisão sólida. Leve e fácil de adicionar: O filtro é apenas um minúsculo MLP com parâmetros de ~ 2K. Você não treina novamente o modelo base, apenas treina o filtro post-hoc e o coloca no loop de decodificação.

Melhores

Classificação

Favoritos