熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
METR 不是 100% "安全",但它仍然是最有價值的基準之一,因為它由一個資源充足且能力出眾的團隊運營,這個團隊包含許多不公開的任務供訓練使用。
其他基準可能會被 AI "操控",因為它們提前知道答案(通過私有保留集解決)或在任務上進行強化學習(通過擁有多樣的任務解決)。...基準也可能在某些方面出現問題(例如,原始的 SWE-Bench 在 "SWE-Bench Verified" 之前有一些意外無法解決的問題)。
我認為不同的基準可以分為不同的層級。METR 感覺像是黃金標準的 Tier 1 評估。ARC-AGI 和 FrontierMath 也不算太差,可能屬於 Tier 2。當你已經擁有 METR 時,SWE-Bench 看起來就不那麼重要了。我非常渴望在數學和工程之外有更多頂級基準。我對 ARC-AGI-3(視頻遊戲的那個)感到興奮。
熱門
排行
收藏
