Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El artículo más importante de 2025 no trata sobre mejoras incrementales en la arquitectura Transformer.
Se trata de reemplazar su paradigma secuencial y autorregresivo por uno paralelo y bidireccional.
El artículo de LLaDA 2.0 replantea completamente cómo pienso sobre los modelos de difusión.
Hasta ahora, los LLMs de difusión me parecían una idea interesante, pero ni de lejos algo que se pudiera ejecutar a escala 100B.
Este artículo cambia eso.
Su idea es muy sencilla:
Toma un modelo autorregresivo fuerte y conviértelo en un modelo de difusión, en lugar de entrenar uno desde cero.
Los autores descubrieron cómo hacerlo sin destruir el conocimiento del modelo original. Lo llaman "El calendario Calentamiento-Estable-Decay."
La razón por la que esto es tan importante:
Un modelo de difusión tiene muchas ventajas: decodificación paralela, buen rendimiento de razonamiento, velocidad, etc.
Estoy enlazando el artículo a continuación.
Sigue leyendo para descubrir cómo podríamos construir la próxima generación de modelos.

Populares
Ranking
Favoritas
