Ada sesuatu yang sangat memuaskan tentang ImageNet. Itu memiliki set pelatihan yang dikuratori dengan baik. Protokol pengujian yang didefinisikan dengan jelas. Kompetisi yang menggalang para peneliti terbaik. Dan papan peringkat yang menelurkan ResNets dan ViT, dan akhirnya mengubah lapangan untuk selamanya. Kemudian NLP mengikuti. Tidak peduli seberapa banyak OpenAI, Anthropic, dan xAI tidak setuju, mereka setidaknya setuju pada satu hal: benchmarking. MMLU, HLE, SWEBench - Anda tidak dapat membuat kemajuan sampai Anda dapat mengukurnya. Robotika masih belum memiliki panggilan penggalangan seperti itu. Tidak ada yang menyetujui apa pun: perangkat keras, tugas, penilaian, mesin simulasi, atau lingkungan dunia nyata. Setiap orang adalah SOTA, menurut definisi, pada tolok ukur yang mereka tentukan dengan cepat untuk setiap makalah. Dari pembuat ImageNet - BEHAVIOR mengambil tantangan menakutkan untuk menyatukan pembandingan robotika pada mesin fisika yang dapat direproduksi (Isaac Sim). Proyek ini dimulai sebelum saya lulus dari Stanford Vision Lab, dan membutuhkan waktu bertahun-tahun dedikasi dan karir PhD untuk membangunnya. Saya harap PERILAKU adalah sinyal mendaki bukit yang kita butuhkan, atau percikan yang akhirnya membuat kita berbicara tentang bagaimana mengukur kemajuan nyata sebagai sebuah bidang.