DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

A fost ceva profund satisfăcător la ImageNet. Avea un set de antrenament bine organizat. Un protocol de testare clar definit. O competiție care a adunat cei mai buni cercetători. Și un clasament care a dat naștere ResNets și ViTs și, în cele din urmă, a schimbat definitiv terenul. Apoi a urmat NLP. Indiferent cât de mult OpenAI, Anthropic și xAI nu sunt de acord, cel puțin sunt de acord cu un singur lucru: benchmarking. MMLU, HLE, SWEBench - nu poți face progrese până când nu ești capabil să-l măsori. Robotica încă nu are un astfel de apel de mobilizare. Nimeni nu este de acord cu nimic: hardware, sarcină, punctaj, motor de simulare sau mediu din lumea reală. Toată lumea este SOTA, prin definiție, pe punctul de referință pe care îl definește din mers pentru fiecare lucrare. De la producătorul ImageNet - BEHAVIOR încearcă provocarea descurajantă de a unifica benchmarking-ul robotic pe un motor fizic reproductibil (Isaac Sim). Proiectul a început înainte de a absolvi Stanford Vision Lab și a durat atât de mulți ani de dedicare și carieră de doctorat pentru a fi construit. Sper că COMPORTAMENTUL este fie semnalul de urcare a dealurilor de care avem nevoie, fie scânteia care ne face în sfârșit să vorbim despre cum să măsurăm progresul real ca domeniu.

Limită superioară

Clasament

Favorite