Vi var i stand til å reprodusere de sterke funnene i HRM-artikkelen om ARC-AGI-1. Videre kjørte vi en rekke ablasjonseksperimenter for å komme til bunns i hva som ligger bak. Viktige funn: 1. Selve HRM-modellarkitekturen (midtpunktet i papiret) er ikke en viktig faktor. 2. Den ytre raffinementsløyfen (knapt nevnt i artikkelen) er den viktigste driveren for ytelse. 3. Overføringslæring på tvers av oppgaver er ikke veldig nyttig. Det som betyr noe er trening på oppgavene du skal teste på. 4. Du kan bruke mye færre dataforsterkninger, spesielt på slutningstidspunktet. Funn 2 og 3 betyr at denne tilnærmingen er et tilfelle av *null-pretraining testtidstrening*, i likhet med den nylig publiserte "ARC-AGI without pretraining"-artikkelen av Liao et al.
241,69K