跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-3.9%
USELESS
+6.26%
IKUN
-0.96%
gib
-4.66%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-1.81%
ALON
+13.31%
LAUNCHCOIN
-6.59%
GOONC
-0.64%
KLED
-14.42%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
0.00%
Boopa
+3.89%
PORK
-4.86%
主页
Peter Wildeford🇺🇸🚀
- 全球排名前20的预测专家 🎯 - 前数据科学家 - 目标:确保人工智能带来所有人的自由与繁荣 - 支持🇺🇸、支持人工智能、支持人类、支持安全
查看原文
Peter Wildeford🇺🇸🚀
12月23日 05:11
来自一位共和党民调员的共和党民调显示,共和党人在支持AI监管方面的选举表现将远远好于反对监管。
David Sacks
12月23日 00:33
新的民调显示,公众支持单一国家AI框架而非50个州的拼凑,支持率高出20个百分点。此外,公众支持在国会能够采取行动之前采取行政行动。这是对特朗普总统“一本规则”的方法的完全证明。
47
Peter Wildeford🇺🇸🚀
12月22日 03:17
METR 并不是 100% "安全",但它仍然是最有价值的基准之一,因为它由一个资源丰富、能力出众的团队运行,团队中包括许多不公开的任务供训练使用。 其他基准可能会被 AI "游戏化",因为它们提前知道答案(通过私有保留集解决)或在任务上进行强化学习(通过拥有多样化的任务解决)。...基准也可能在某些方面被搞砸(例如,原始的 SWE-Bench 在 "SWE-Bench Verified" 之前有一些意外无法解决的问题)。 我认为不同的基准可以分为不同的层级。METR 感觉像是黄金标准的 Tier 1 评估。ARC-AGI 和 FrontierMath 也还不错,可能属于 Tier 2。SWE-Bench 在你已经拥有 METR 的情况下似乎不那么重要。我非常希望能有更多数学和工程以外的顶级基准。我对 ARC-AGI-3(视频游戏相关的)感到兴奋。
mimrock
12月21日 22:13
为什么这个特定的基准被认为免受基准腐烂的影响? 实验室为什么可以针对 ARC-AGI、HLE、SWE-bench 等,但 METR 被认为是安全的?
763
热门
排行
收藏