トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO発売
最も強力な AI コーディング モデルでさえ、テストが難しくなると苦戦します。
SWE-BENCH Verified では、約 70% のスコアを獲得しました。より厳しい SWE-BENCH PRO では、25% 未満に低下しました。
SWE-BENCH Verified は乱雑で簡単すぎ、モデルはトレーニング中に答えを確認しており、問題は実際のソフトウェアの作業を反映していません。PRO は、現実に近いエンタープライズ レベルの長いプロジェクトを追加することで、これを修正します。
- パブリックセットで:GPT-5は23.3%、Claude Opus 4.1は22.7%を解決します。
- コマーシャルセットで: さらに難しい。Claude のスコアは 17.8%、GPT-5 のスコアは 14.9% です。
私たちが学んだ3つのこと
1.ビッグモデルは思考の壁にぶつかります。GPT-5とClaudeはクリーンなコードを書いてツールを使うことができますが、ロジックを間違えることがよくあります。
2.小型モデルは早く故障します。構文、書式設定、ツールの使用などの基本を破ります。
3.各モデルには独自の弱点があります。ソネットは文脈の枠を超えています。Gemini は、ツール、構文、推論の間違いを混在させます。
モデルは Python と Go をより適切に処理します。彼らはまだJavaScriptとTypeScriptでひどく苦戦しています。
現在のAIは、信頼できるソフトウェアエンジニアとは程遠いです。単純なタスクで成功すると誤解を招きます。今の本当の課題は、コードを書くことではなく、問題を熟考することです。


トップ
ランキング
お気に入り