Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aceleración de LLMs de Difusión a través de Decodificación Paralela Adaptativa
Gran artículo sobre cómo acelerar los LLMs de estilo difusión (dLLMs) en un 22x. Con caché KV, las aceleraciones pueden llevarse aún más a 57x.
Los dLLMs a menudo pierden tiempo: realizan remascarado innecesario y decodificación con mucho padding durante la denoising semi-autoregresiva. Learn2PD añade dos trucos simples para reducir ese desperdicio.
Detección más inteligente de "hecho" por token: Un pequeño modelo de filtro aprende a identificar si un token ya es correcto. Una vez que se marca como "hecho", nunca se vuelve a tocar. Esto evita el constante bucle de remascarado y acelera mucho la decodificación.
Detenerse cuando la respuesta termina: Si aparece el token de Fin de Texto, la decodificación se detiene inmediatamente. Esto elimina enormes cantidades de sobrecarga de padding, especialmente para salidas largas.
Logran grandes aumentos de velocidad con casi ninguna pérdida de calidad. En GSM8K (problemas matemáticos), la velocidad mejoró 22× a 1024 tokens con una precisión básicamente sin cambios. Para salidas más largas, las aceleraciones son aún mayores.
Funciona con caché KV: Combinado con trucos de caché, puedes llevar las aceleraciones a 57×, aún con una precisión sólida.
Ligero y fácil de añadir: El filtro es solo un pequeño MLP con ~2K parámetros. No necesitas reentrenar el modelo base, solo entrena el filtro post-hoc y colócalo en el bucle de decodificación.

Parte superior
Clasificación
Favoritos