跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-1.22%
USELESS
-8.88%
IKUN
+2.13%
gib
-3.79%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.94%
ALON
+0.47%
LAUNCHCOIN
-3.31%
GOONC
-1.47%
KLED
+18.81%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.01%
Boopa
-0.5%
PORK
0.00%
主页
METR
一家 AI 研究非营利组织,致力于推进对 AI 系统进行实证测试的科学研究,以评估可能对社会造成灾难性伤害的能力。
查看原文
METR
12月20日 10:25
我们估计,在我们的任务中,Claude Opus 4.5 的 50% 时间范围大约为 4 小时 49 分钟(95% 置信区间为 1 小时 49 分钟到 20 小时 25 分钟)。虽然我们仍在对其他最近的模型进行评估,但这是我们迄今为止发布的最高时间范围。
86
METR
12月5日 03:03
如果我们希望世界理解先进的AI能力和风险,我们需要严格、透明的评估。我们很高兴能通过AI评估者论坛与其他独立评估者合作,提高测量最佳实践的标准。
AI Evaluator Forum
12月5日 02:04
今天我们宣布成立AI评估论坛:一个专注于独立第三方评估的领先AI研究组织的联盟。 创始AEF成员:@TransluceAI @METR_Evals @RANDCorporation @halevals @SecureBio @collect_intel @Miles_Brundage
136
METR
2025年11月21日
我们估计 Kimi K2 Thinking 在我们的代理 SWE 任务上具有大约 54 分钟的 50% 时间范围(95% 置信区间为 25 到 100 分钟)。请注意,我们通过第三方推理提供者进行了此评估,这降低了我们对该估计的信心。
584
热门
排行
收藏