ARC-AGI 內化了一個重要的教訓,但並不是很多其他人都這樣做,那就是基準性能是測試時計算的函數。 @OpenAI 發布單一數字的基準結果,因為這樣更簡單,人們也期望看到這樣的結果,但理想情況下,所有評估都應該有一個 x 軸。