METR 并不是 100% "安全",但它仍然是最有价值的基准之一,因为它由一个资源丰富、能力出众的团队运行,团队中包括许多不公开的任务供训练使用。 其他基准可能会被 AI "游戏化",因为它们提前知道答案(通过私有保留集解决)或在任务上进行强化学习(通过拥有多样化的任务解决)。...基准也可能在某些方面被搞砸(例如,原始的 SWE-Bench 在 "SWE-Bench Verified" 之前有一些意外无法解决的问题)。 我认为不同的基准可以分为不同的层级。METR 感觉像是黄金标准的 Tier 1 评估。ARC-AGI 和 FrontierMath 也还不错,可能属于 Tier 2。SWE-Bench 在你已经拥有 METR 的情况下似乎不那么重要。我非常希望能有更多数学和工程以外的顶级基准。我对 ARC-AGI-3(视频游戏相关的)感到兴奋。