- OpenAI 的模型在 ICPC 世界總決賽中解決了 12 個問題中的 12 個。 - Google 的 Gemini 2.5 Deep Think 解決了 10/12。 - 頂尖人類團隊解決了 11/12。 GPT-5 也解決了 11/12,而一個實驗性的推理模型解決了最難的問題。 競爭編程與構建大規模系統或編寫生產代碼有很大不同。我希望看到更多反映現實世界軟件工程任務的基準測試。