Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Universelles Denkmodell
Universelle Transformer übertreffen Standard-Transformer bei Denkaufgaben.
Aber warum?
Frühere Arbeiten führten die Verbesserungen auf ausgeklügelte architektonische Innovationen wie hierarchische Designs und komplexe Steuermechanismen zurück.
Aber diese Forscher fanden eine einfachere Erklärung.
Diese neue Forschung zeigt, dass die Leistungssteigerungen bei ARC-AGI hauptsächlich auf zwei oft übersehene Faktoren zurückzuführen sind: rekursive induktive Voreingenommenheit und starke Nonlinearität.
Die wiederholte Anwendung einer einzigen Transformation funktioniert viel besser als das Stapeln unterschiedlicher Schichten für Denkaufgaben.
Mit nur 4x Parametern erreicht ein Universeller Transformer 40% pass@1 bei ARC-AGI 1. Vanilla-Transformer mit 32x Parametern erzielen nur 23,75%. Einfaches Skalieren von Tiefe oder Breite in Standard-Transformern führt zu abnehmenden Erträgen und kann sogar die Leistung verschlechtern.
Sie führen das Universelle Denkmodell (URM) ein, das dies mit zwei Techniken verbessert. Erstens fügt ConvSwiGLU eine tiefenweise kurze Faltung nach der MLP-Erweiterung hinzu, die lokale Token-Mischung in den nichtlinearen Pfad injiziert. Zweitens überspringt Truncated Backpropagation Through Loops die Gradientenberechnung für frühe rekursive Iterationen und stabilisiert die Optimierung.
Ergebnisse: 53,8% pass@1 bei ARC-AGI 1, ein Anstieg von 40% (TRM) und 34,4% (HRM). Bei ARC-AGI 2 erreicht URM 16% pass@1, was fast eine Verdreifachung von HRM und mehr als eine Verdopplung von TRM bedeutet. Die Genauigkeit bei Sudoku erreicht 77,6%.
Ablationen:
- Das Entfernen der kurzen Faltung senkt pass@1 von 53,8% auf 45,3%. Das Entfernen der gekürzten Rückpropagation senkt es auf 40%.
- Das Ersetzen von SwiGLU durch einfachere Aktivierungen wie ReLU lässt die Leistung auf 28,6% sinken.
- Das vollständige Entfernen von Attention Softmax lässt die Genauigkeit auf 2% zusammenbrechen.
Die rekursive Struktur wandelt Rechenleistung in effektive Tiefe um. Standard-Transformer verwenden FLOPs für redundante Verfeinerungen in höheren Schichten. Rekursive Berechnungen konzentrieren dasselbe Budget auf iteratives Denken.
Komplexes Denken profitiert mehr von iterativer Berechnung als von Skalierung. Kleine Modelle mit rekursiver Struktur übertreffen große statische Modelle bei Aufgaben, die mehrstufige Abstraktion erfordern.

Top
Ranking
Favoriten
