跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-3.36%
USELESS
+8.08%
IKUN
+6.69%
gib
-4.66%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3%
ALON
+10.4%
LAUNCHCOIN
-7.17%
GOONC
-1.35%
KLED
-10.68%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
0.00%
Boopa
+3.44%
PORK
-4.86%
主頁
Peter Wildeford🇺🇸🚀
- 全球排名前20名預測員 🎯 - 前資料科學家 - 目標:確保 AI 帶來所有人的自由與繁榮 - 支持🇺🇸、支持人工智慧、支持人類、支持安全
查看原文
Peter Wildeford🇺🇸🚀
12月23日 05:11
來自共和黨民調員的共和黨民調顯示,共和黨人在選舉上支持 AI 監管會比反對它們要好得多。
David Sacks
12月23日 00:33
最新的民調顯示,公眾支持單一的全國AI框架,超過50個州的拼湊方案20個百分點,而且,還支持在國會能夠行動之前採取行政行動。這對特朗普總統的「一套規則」方法是完全的證明。
56
Peter Wildeford🇺🇸🚀
12月22日 03:17
METR 不是 100% "安全",但它仍然是最有價值的基準之一,因為它由一個資源充足且能力出眾的團隊運營,這個團隊包含許多不公開的任務供訓練使用。 其他基準可能會被 AI "操控",因為它們提前知道答案(通過私有保留集解決)或在任務上進行強化學習(通過擁有多樣的任務解決)。...基準也可能在某些方面出現問題(例如,原始的 SWE-Bench 在 "SWE-Bench Verified" 之前有一些意外無法解決的問題)。 我認為不同的基準可以分為不同的層級。METR 感覺像是黃金標準的 Tier 1 評估。ARC-AGI 和 FrontierMath 也不算太差,可能屬於 Tier 2。當你已經擁有 METR 時,SWE-Bench 看起來就不那麼重要了。我非常渴望在數學和工程之外有更多頂級基準。我對 ARC-AGI-3(視頻遊戲的那個)感到興奮。
mimrock
12月21日 22:13
為什麼這個特定的基準被認為對基準腐爛免疫? 為什麼實驗室可以針對 ARC-AGI、HLE、SWE-bench 等,但 METR 被認為是安全的?
777
熱門
排行
收藏