SWE-BENCH PRO発売 最も強力な AI コーディング モデルでさえ、テストが難しくなると苦戦します。 SWE-BENCH Verified では、約 70% のスコアを獲得しました。より厳しい SWE-BENCH PRO では、25% 未満に低下しました。 SWE-BENCH Verified は乱雑で簡単すぎ、モデルはトレーニング中に答えを確認しており、問題は実際のソフトウェアの作業を反映していません。PRO は、現実に近いエンタープライズ レベルの長いプロジェクトを追加することで、これを修正します。 - パブリックセットで:GPT-5は23.3%、Claude Opus 4.1は22.7%を解決します。 - コマーシャルセットで: さらに難しい。Claude のスコアは 17.8%、GPT-5 のスコアは 14.9% です。 私たちが学んだ3つのこと 1.ビッグモデルは思考の壁にぶつかります。GPT-5とClaudeはクリーンなコードを書いてツールを使うことができますが、ロジックを間違えることがよくあります。 2.小型モデルは早く故障します。構文、書式設定、ツールの使用などの基本を破ります。 3.各モデルには独自の弱点があります。ソネットは文脈の枠を超えています。Gemini は、ツール、構文、推論の間違いを混在させます。 モデルは Python と Go をより適切に処理します。彼らはまだJavaScriptとTypeScriptでひどく苦戦しています。 現在のAIは、信頼できるソフトウェアエンジニアとは程遠いです。単純なタスクで成功すると誤解を招きます。今の本当の課題は、コードを書くことではなく、問題を熟考することです。