ARC-AGI 内化了一个重要的教训,但并不是很多其他人都意识到,那就是基准性能是测试时计算能力的函数。 @OpenAI 发布单一数字的基准结果,因为这更简单,人们也期望看到这样的结果,但理想情况下,所有评估都应该有一个 x 轴。