Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aceleración de LLM de difusión a través de la decodificación paralela adaptativa
Gran artículo sobre la aceleración de los LLM de estilo de difusión (dLLM) en 22 veces. Con la caché KV, las aceleraciones se pueden aumentar aún más a 57x.
Los dLLM a menudo pierden tiempo: realizan un reenmascaramiento innecesario y una decodificación pesada de relleno durante la eliminación de ruido semiautorregresiva. Learn2PD agrega dos trucos simples para reducir ese desperdicio.
Detección "hecha" más inteligente por token: un pequeño modelo de filtro aprende a saber si un token ya es correcto. Una vez que se marca como "hecho", nunca se vuelve a tocar. Esto evita el bucle de reenmascaramiento constante y acelera mucho la decodificación.
Detener cuando finaliza la respuesta: si aparece el token de fin de texto, la decodificación se detiene inmediatamente. Esto elimina grandes cantidades de sobrecarga de relleno, especialmente para salidas largas.
Logran grandes aumentos de velocidad casi sin pérdida de calidad. En GSM8K (problemas matemáticos), la velocidad mejoró un 22× a 1024 tokens con precisión básicamente sin cambios. Para salidas más largas, las aceleraciones se vuelven aún mayores.
Funciona con caché KV: Combínalo con trucos de almacenamiento en caché y podrás aumentar la velocidad a 57×, aún con una precisión sólida.
Ligero y fácil de agregar: el filtro es solo un pequeño MLP con ~ 2K parámetros. No se vuelve a entrenar el modelo base, simplemente se entrena el filtro post-hoc y se coloca en el bucle de decodificación.

Populares
Ranking
Favoritas