一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

2025年最重要的论文并不是关于对Transformer架构的渐进式改进。而是关于用并行的双向范式替代其顺序的自回归范式。 LLaDA 2.0论文完全重塑了我对扩散模型的思考。到目前为止，扩散LLM感觉像是一个有趣的想法，但远未达到可以在100B规模上运行的程度。这篇论文改变了这一点。他们的想法非常简单：取一个强大的自回归模型，将其转换为扩散模型，而不是从头开始训练一个。作者们找到了在不破坏原始模型知识的情况下做到这一点的方法。他们称之为“热身-稳定-衰减计划”。这之所以重要：扩散模型有许多好处：并行解码、强大的推理性能、速度等。我在下面链接到这篇论文。继续阅读，看看我们如何构建下一代模型。