一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

METR 并不是 100% "安全"，但它仍然是最有价值的基准之一，因为它由一个资源丰富、能力出众的团队运行，团队中包括许多不公开的任务供训练使用。其他基准可能会被 AI "游戏化"，因为它们提前知道答案（通过私有保留集解决）或在任务上进行强化学习（通过拥有多样化的任务解决）。...基准也可能在某些方面被搞砸（例如，原始的 SWE-Bench 在 "SWE-Bench Verified" 之前有一些意外无法解决的问题）。我认为不同的基准可以分为不同的层级。METR 感觉像是黄金标准的 Tier 1 评估。ARC-AGI 和 FrontierMath 也还不错，可能属于 Tier 2。SWE-Bench 在你已经拥有 METR 的情况下似乎不那么重要。我非常希望能有更多数学和工程以外的顶级基准。我对 ARC-AGI-3（视频游戏相关的）感到兴奋。