Самая важная работа 2025 года не о постепенных улучшениях архитектуры Transformer. Она о замене последовательной, авторегрессионной парадигмы на параллельную, двунаправленную. Статья LLaDA 2.0 полностью меняет мое представление о диффузионных моделях. До сих пор диффузионные LLM казались интересной идеей, но далеко не чем-то, что можно было бы запустить на масштабе 100B. Эта работа меняет ситуацию. Их идея очень проста: Взять сильную авторегрессионную модель и преобразовать ее в диффузионную модель, а не обучать одну с нуля. Авторы выяснили, как это сделать, не разрушая знания оригинальной модели. Они называют это "График Разогрева-Устойчивого-Убывания." Причина, по которой это огромно: Диффузионная модель имеет много преимуществ: параллельное декодирование, сильная производительность в рассуждениях, скорость и т.д. Я прикрепляю ссылку на статью ниже. Читать дальше, чтобы увидеть, как мы можем построить следующее поколение моделей.