一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

通用推理模型通用变压器在推理任务上压倒了标准变压器。但为什么？之前的研究将这种提升归因于复杂的架构创新，如分层设计和复杂的门控机制。但这些研究人员发现了一个更简单的解释。这项新研究表明，ARC-AGI上的性能提升主要来自两个常被忽视的因素：递归归纳偏差和强非线性。重复应用单一变换在推理任务上效果远胜于堆叠不同层。仅用4倍的参数，通用变压器在ARC-AGI 1上实现了40%的通过率@1。使用32倍参数的香草变压器仅得23.75%。简单地增加标准变压器的深度或宽度会导致收益递减，甚至可能降低性能。他们引入了通用推理模型（URM），通过两种技术增强了这一点。首先，ConvSwiGLU在MLP扩展后添加了深度短卷积，将局部标记混合注入非线性路径。其次，循环截断反向传播跳过早期递归迭代的梯度计算，稳定优化。结果：ARC-AGI 1上的通过率@1为53.8%，高于40%（TRM）和34.4%（HRM）。在ARC-AGI 2上，URM达到了16%的通过率@1，几乎是HRM的三倍，TRM的两倍多。数独准确率达到77.6%。消融实验： - 移除短卷积使通过率@1从53.8%降至45.3%。移除循环截断反向传播使其降至40%。 - 用更简单的激活函数如ReLU替换SwiGLU使性能降至28.6%。 - 完全移除注意力softmax使准确率崩溃至2%。递归结构将计算转化为有效深度。标准变压器在更高层上花费FLOPs进行冗余的细化。递归计算将相同的预算集中在迭代推理上。复杂推理比规模更受益于迭代计算。具有递归结构的小模型在需要多步抽象的任务上优于大型静态模型。