Найважливіша стаття 2025 року не стосується поступових покращень архітектури Transformer. Йдеться про заміну її послідовної, авторегресивної парадигми на паралельну, двонаправлену. Стаття LLaDA 2.0 повністю переосмислює моє уявлення про дифузійні моделі. До цього моменту дифузійні LLM здавалися цікавою ідеєю, але далеко не такою, яку можна було б запустити в масштабі 100B. Ця стаття це змінює. Їхня ідея дуже проста: Візьміть сильну авторегресивну модель і перетворіть її на дифузійну модель, замість того щоб навчати її з нуля. Автори з'ясували, як це зробити, не знищивши знання оригінальної моделі. Вони називають це «Розігрів-Стабільний-Розклад». Причина, чому це важливо: Дифузійна модель має багато переваг: паралельне декодування, потужну продуктивність мислення, швидкість тощо. Я даю посилання на статтю нижче. Читайте далі, щоб дізнатися, як ми можемо створити наступне покоління моделей.