2025年最重要的论文并不是关于对Transformer架构的渐进式改进。 而是关于用并行的双向范式替代其顺序的自回归范式。 LLaDA 2.0论文完全重塑了我对扩散模型的思考。 到目前为止,扩散LLM感觉像是一个有趣的想法,但远未达到可以在100B规模上运行的程度。 这篇论文改变了这一点。 他们的想法非常简单: 取一个强大的自回归模型,将其转换为扩散模型,而不是从头开始训练一个。 作者们找到了在不破坏原始模型知识的情况下做到这一点的方法。他们称之为“热身-稳定-衰减计划”。 这之所以重要: 扩散模型有许多好处:并行解码、强大的推理性能、速度等。 我在下面链接到这篇论文。 继续阅读,看看我们如何构建下一代模型。