.@NVIDIA realizat un rezultat uimitor folosind un model 4B minuscul care a depășit sisteme mult mai mari pe ARC AGI 2, 29,72% / 0,20$ pe sarcină! Bazându-se pe date sintetice și antrenament în timpul testului în loc de scală brută, echipa NVARC a demonstrat că designul inteligent poate depăși numărul brut de parametri. Este un semnal interesant că raționamentul eficient și adaptiv ar putea fi adevărata frontieră în progresul AGI – nu doar modele tot mai mari. •Acuratețe de 29,72% pe clasamentul oficial ARC-AGI-2 • Folosește un model cu 4B parametri care depășește modele mult mai mari și mai scumpe pe același benchmark. • Costul inferenței este de doar 0,20 dolari pe sarcină, activat de date sintetice, antrenamente în timpul testului și uneltele NVIDIA NeMo.
@nvidia Editare: îmi pare rău, scorul este 27,64%, am greșit. Dar totuși incredibil de impresionant
44,77K