通用推理模型 通用變壓器在推理任務上壓倒了標準變壓器。 但為什麼? 先前的研究將這些增益歸因於複雜的架構創新,如層次設計和複雜的閘控機制。 但這些研究人員找到了更簡單的解釋。 這項新研究表明,ARC-AGI上的性能增益主要來自兩個經常被忽視的因素:重複的歸納偏差和強非線性。 重複應用單一變換在推理任務上效果遠好於堆疊不同的層。 僅用4倍的參數,通用變壓器在ARC-AGI 1上達到40%的通過率,而擁有32倍參數的標準變壓器僅得23.75%。簡單地擴大標準變壓器的深度或寬度會產生遞減的回報,甚至可能降低性能。 他們引入了通用推理模型(URM),並用兩種技術增強了這一點。首先,ConvSwiGLU在MLP擴展後添加了一個深度短卷積,將局部標記混合注入非線性路徑。其次,循環迭代的截斷反向傳播跳過早期的梯度計算,穩定優化。 結果:ARC-AGI 1的通過率達到53.8%,高於40%(TRM)和34.4%(HRM)。在ARC-AGI 2上,URM達到16%的通過率,幾乎是HRM的三倍,並且是TRM的兩倍多。數獨的準確率達到77.6%。 消融實驗: - 移除短卷積使通過率從53.8%降至45.3%。移除截斷反向傳播使其降至40%。 - 用更簡單的激活函數如ReLU替換SwiGLU使性能降至28.6%。 - 完全移除注意力softmax使準確率崩潰至2%。 重複結構將計算轉換為有效的深度。標準變壓器在更高層上花費FLOPs進行冗餘的精煉。重複計算將相同的預算集中在迭代推理上。 複雜的推理比起規模更受益於迭代計算。具有重複結構的小模型在需要多步抽象的任務上超越大型靜態模型。