ARC-AGIが内面化した重要な教訓ですが、多くの人がそうではないのは、ベンチマーク性能はテスト時の計算の関数であるということです。 @OpenAI単一数値のベンチマーク結果を公開しています。単純で人々が見たいと思っているからですが、理想的にはすべての評価にx軸が欲しいです。