Wir konnten die starken Ergebnisse des HRM-Papiers zu ARC-AGI-1 reproduzieren. Darüber hinaus haben wir eine Reihe von Ablationsexperimenten durchgeführt, um herauszufinden, was dahintersteckt. Wichtigste Ergebnisse: 1. Die Architektur des HRM-Modells selbst (das Herzstück des Papiers) ist kein wichtiger Faktor. 2. Der äußere Verfeinerungsloop (kaum im Papier erwähnt) ist der Haupttreiber der Leistung. 3. Cross-Task-Transferlernen ist nicht sehr hilfreich. Was zählt, ist das Training an den Aufgaben, die Sie testen werden. 4. Sie können viel weniger Datenaugmentationen verwenden, insbesondere zur Inferenzzeit. Die Ergebnisse 2 und 3 bedeuten, dass dieser Ansatz ein Fall von *Zero-Pretraining-Testzeit-Training* ist, ähnlich dem kürzlich veröffentlichten Papier "ARC-AGI ohne Pretraining" von Liao et al.
315,37K