Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El documento más importante de 2025 no trata sobre mejoras incrementales en la arquitectura Transformer.
Se trata de reemplazar su paradigma secuencial y autorregresivo por uno paralelo y bidireccional.
El documento de LLaDA 2.0 reconfigura completamente cómo pienso sobre los modelos de difusión.
Hasta ahora, los LLMs de difusión parecían una idea interesante, pero nada cerca de algo que pudieras ejecutar a escala de 100B.
Este documento cambia eso.
Su idea es muy simple:
Tomar un modelo autorregresivo fuerte y convertirlo en un modelo de difusión, en lugar de entrenar uno desde cero.
Los autores descubrieron cómo hacer esto sin destruir el conocimiento del modelo original. Lo llaman "El programa de Calentamiento-Estable-Decaimiento."
La razón por la que esto es enorme:
Un modelo de difusión tiene muchos beneficios: decodificación paralela, fuerte rendimiento en razonamiento, velocidad, etc.
Estoy enlazando el documento a continuación.
Sigue leyendo para ver cómo podríamos construir la próxima generación de modelos.

Parte superior
Clasificación
Favoritos
