実際には、相対的な能力に関する私の直感に~一致する、非常に賢く、高データの幻覚ベンチマークです
OpenRouter
OpenRouter8月15日 00:29
1週間後、GPT-5はツール呼び出しの精度🥇で独自のモデルチャートのトップになりました 2位はClaude 4.1 Opusで、99.5%です 細部 👇
24K