普遍推論モデル ユニバーサルトランスフォーマーは推論課題で標準的なトランスフォーマーを圧倒します。 でもどうして。 以前の研究では、階層的な設計や複雑なゲート機構などの精緻な建築革新による成果が得られるとされていました。 しかし、これらの研究者たちはより単純な説明を見つけました。 この新しい研究は、ARC-AGIにおける性能向上の主な要因、すなわち繰り返し帰納バイアスと強い非線形性という二つの要因によるものであることを示しています。 単一の変換を繰り返し適用する方が、推論タスクのために異なるレイヤーを重ねるよりもはるかに効果的です。 4倍のパラメータだけで、ユニバーサルトランスはARC-AGI 1で40%のpass@1を実現します。32倍のパラメータを持つバニラトランスフォーマーはわずか23.75%のスコアです。標準的なトランスで単に深さや幅を拡大するだけでは、収益逓減になり、性能を低下させることさえあります。 彼らは普遍推論モデル(URM)を導入し、これを2つの手法で強化しています。まず、ConvSwiGLUはMLP展開後に深さごとの短い畳み込みを追加し、非線形経路に局所トークンミックスを注入します。次に、Truncated Backpropagation Through Loopsは初期の再回反復で勾配計算を省略し、最適化を安定化させます。 結果:ARC-AGI 1で53.8%のpass@1が、TRMの40%、HRMの34.4%から上昇しました。ARC-AGI 2では、URMは16%のpass@1に達し、HRMはほぼ3倍、TRMは2倍以上に増加します。数独の命中率は77.6%に達します。 アブレーション: - ショート畳み込みを除去すると、53.8%から45.3%へpass@1下がります。切断された逆伝搬を除去すると、その率は40%に下がります。 - SwiGLUをReLUのようなより簡単なアクティベーションに置き換えると、パフォーマンスは28.6%まで低下します。 - 注意ソフトマックスを除去すると、命中率は完全に2%に崩壊します。 反復構造は計算を有効深さに変換します。標準トランスは上位層での冗長な精錬にFLOPを費やします。再帰計算は同じ予算を反復的推論に集中させます。 複雑な推論はスケールよりも反復計算の方が恩恵を受けます。繰り返し構造を持つ小規模モデルは、多段階抽象化を必要とする大型静的モデルよりも優れた性能を示します。