通用推理模型 通用变压器在推理任务上压倒了标准变压器。 但为什么? 之前的研究将这种提升归因于复杂的架构创新,如分层设计和复杂的门控机制。 但这些研究人员发现了一个更简单的解释。 这项新研究表明,ARC-AGI上的性能提升主要来自两个常被忽视的因素:递归归纳偏差和强非线性。 重复应用单一变换在推理任务上效果远胜于堆叠不同层。 仅用4倍的参数,通用变压器在ARC-AGI 1上实现了40%的通过率@1。使用32倍参数的香草变压器仅得23.75%。简单地增加标准变压器的深度或宽度会导致收益递减,甚至可能降低性能。 他们引入了通用推理模型(URM),通过两种技术增强了这一点。首先,ConvSwiGLU在MLP扩展后添加了深度短卷积,将局部标记混合注入非线性路径。其次,循环截断反向传播跳过早期递归迭代的梯度计算,稳定优化。 结果:ARC-AGI 1上的通过率@1为53.8%,高于40%(TRM)和34.4%(HRM)。在ARC-AGI 2上,URM达到了16%的通过率@1,几乎是HRM的三倍,TRM的两倍多。数独准确率达到77.6%。 消融实验: - 移除短卷积使通过率@1从53.8%降至45.3%。移除循环截断反向传播使其降至40%。 - 用更简单的激活函数如ReLU替换SwiGLU使性能降至28.6%。 - 完全移除注意力softmax使准确率崩溃至2%。 递归结构将计算转化为有效深度。标准变压器在更高层上花费FLOPs进行冗余的细化。递归计算将相同的预算集中在迭代推理上。 复杂推理比规模更受益于迭代计算。具有递归结构的小模型在需要多步抽象的任务上优于大型静态模型。