Le papier le plus important de 2025 ne concerne pas les améliorations incrémentales de l'architecture Transformer. Il s'agit de remplacer son paradigme séquentiel et autorégressif par un modèle parallèle et bidirectionnel. Le papier LLaDA 2.0 reformule complètement ma façon de penser les modèles de diffusion. Jusqu'à présent, les LLM de diffusion semblaient être une idée intéressante, mais pas du tout quelque chose que l'on pourrait exécuter à l'échelle de 100B. Ce papier change cela. Leur idée est très simple : Prenez un modèle autorégressif puissant et convertissez-le en un modèle de diffusion, plutôt que d'en entraîner un depuis le début. Les auteurs ont découvert comment faire cela sans détruire les connaissances du modèle original. Ils l'appellent "Le calendrier Warmup-Stable-Decay." La raison pour laquelle c'est énorme : Un modèle de diffusion a de nombreux avantages : décodage parallèle, performances de raisonnement solides, rapidité, etc. Je mets le lien vers le papier ci-dessous. Lisez la suite pour voir comment nous pourrions construire la prochaine génération de modèles.