熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
通用推理模型
通用變壓器在推理任務上壓倒了標準變壓器。
但為什麼?
先前的研究將這些增益歸因於複雜的架構創新,如層次設計和複雜的閘控機制。
但這些研究人員找到了更簡單的解釋。
這項新研究表明,ARC-AGI上的性能增益主要來自兩個經常被忽視的因素:重複的歸納偏差和強非線性。
重複應用單一變換在推理任務上效果遠好於堆疊不同的層。
僅用4倍的參數,通用變壓器在ARC-AGI 1上達到40%的通過率,而擁有32倍參數的標準變壓器僅得23.75%。簡單地擴大標準變壓器的深度或寬度會產生遞減的回報,甚至可能降低性能。
他們引入了通用推理模型(URM),並用兩種技術增強了這一點。首先,ConvSwiGLU在MLP擴展後添加了一個深度短卷積,將局部標記混合注入非線性路徑。其次,循環迭代的截斷反向傳播跳過早期的梯度計算,穩定優化。
結果:ARC-AGI 1的通過率達到53.8%,高於40%(TRM)和34.4%(HRM)。在ARC-AGI 2上,URM達到16%的通過率,幾乎是HRM的三倍,並且是TRM的兩倍多。數獨的準確率達到77.6%。
消融實驗:
- 移除短卷積使通過率從53.8%降至45.3%。移除截斷反向傳播使其降至40%。
- 用更簡單的激活函數如ReLU替換SwiGLU使性能降至28.6%。
- 完全移除注意力softmax使準確率崩潰至2%。
重複結構將計算轉換為有效的深度。標準變壓器在更高層上花費FLOPs進行冗餘的精煉。重複計算將相同的預算集中在迭代推理上。
複雜的推理比起規模更受益於迭代計算。具有重複結構的小模型在需要多步抽象的任務上超越大型靜態模型。

熱門
排行
收藏
