一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

通用推理模型通用變壓器在推理任務上壓倒了標準變壓器。但為什麼？先前的研究將這些增益歸因於複雜的架構創新，如層次設計和複雜的閘控機制。但這些研究人員找到了更簡單的解釋。這項新研究表明，ARC-AGI上的性能增益主要來自兩個經常被忽視的因素：重複的歸納偏差和強非線性。重複應用單一變換在推理任務上效果遠好於堆疊不同的層。僅用4倍的參數，通用變壓器在ARC-AGI 1上達到40%的通過率，而擁有32倍參數的標準變壓器僅得23.75%。簡單地擴大標準變壓器的深度或寬度會產生遞減的回報，甚至可能降低性能。他們引入了通用推理模型（URM），並用兩種技術增強了這一點。首先，ConvSwiGLU在MLP擴展後添加了一個深度短卷積，將局部標記混合注入非線性路徑。其次，循環迭代的截斷反向傳播跳過早期的梯度計算，穩定優化。結果：ARC-AGI 1的通過率達到53.8%，高於40%（TRM）和34.4%（HRM）。在ARC-AGI 2上，URM達到16%的通過率，幾乎是HRM的三倍，並且是TRM的兩倍多。數獨的準確率達到77.6%。消融實驗： - 移除短卷積使通過率從53.8%降至45.3%。移除截斷反向傳播使其降至40%。 - 用更簡單的激活函數如ReLU替換SwiGLU使性能降至28.6%。 - 完全移除注意力softmax使準確率崩潰至2%。重複結構將計算轉換為有效的深度。標準變壓器在更高層上花費FLOPs進行冗餘的精煉。重複計算將相同的預算集中在迭代推理上。複雜的推理比起規模更受益於迭代計算。具有重複結構的小模型在需要多步抽象的任務上超越大型靜態模型。