熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
ImageNet 有一種深深的滿足感。它有一個精心策劃的訓練集,一個明確定義的測試協議,一個匯聚了最佳研究者的競賽,以及一個催生了 ResNets 和 ViTs 的排行榜,最終改變了這個領域。
然後是 NLP。無論 OpenAI、Anthropic 和 xAI 有多麼不同意,他們至少在一件事上達成了一致:基準測試。MMLU、HLE、SWEBench - 你無法取得進展,直到你能夠衡量它。
機器人技術仍然沒有這樣的號召。沒有人對任何事情達成一致:硬件、任務、評分、仿真引擎或現實世界環境。每個人在他們為每篇論文即時定義的基準上,都是 SOTA。
來自 ImageNet 的創作者 - BEHAVIOR 試圖挑戰統一機器人基準測試的艱鉅任務,基於一個可重複的物理引擎(Isaac Sim)。這個項目在我從斯坦福視覺實驗室畢業之前就開始了,花費了多年的奉獻和博士生涯來構建。我希望 BEHAVIOR 要麼是我們需要的爬坡信號,要麼是最終讓我們開始討論如何衡量作為一個領域的真正進展的火花。
熱門
排行
收藏