热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
通用推理模型
通用变压器在推理任务上压倒了标准变压器。
但为什么?
之前的研究将这种提升归因于复杂的架构创新,如分层设计和复杂的门控机制。
但这些研究人员发现了一个更简单的解释。
这项新研究表明,ARC-AGI上的性能提升主要来自两个常被忽视的因素:递归归纳偏差和强非线性。
重复应用单一变换在推理任务上效果远胜于堆叠不同层。
仅用4倍的参数,通用变压器在ARC-AGI 1上实现了40%的通过率@1。使用32倍参数的香草变压器仅得23.75%。简单地增加标准变压器的深度或宽度会导致收益递减,甚至可能降低性能。
他们引入了通用推理模型(URM),通过两种技术增强了这一点。首先,ConvSwiGLU在MLP扩展后添加了深度短卷积,将局部标记混合注入非线性路径。其次,循环截断反向传播跳过早期递归迭代的梯度计算,稳定优化。
结果:ARC-AGI 1上的通过率@1为53.8%,高于40%(TRM)和34.4%(HRM)。在ARC-AGI 2上,URM达到了16%的通过率@1,几乎是HRM的三倍,TRM的两倍多。数独准确率达到77.6%。
消融实验:
- 移除短卷积使通过率@1从53.8%降至45.3%。移除循环截断反向传播使其降至40%。
- 用更简单的激活函数如ReLU替换SwiGLU使性能降至28.6%。
- 完全移除注意力softmax使准确率崩溃至2%。
递归结构将计算转化为有效深度。标准变压器在更高层上花费FLOPs进行冗余的细化。递归计算将相同的预算集中在迭代推理上。
复杂推理比规模更受益于迭代计算。具有递归结构的小模型在需要多步抽象的任务上优于大型静态模型。

热门
排行
收藏
