- OpenAI 的模型在 ICPC 世界总决赛中解决了 12 个问题中的 12 个。 - Google 的 Gemini 2.5 Deep Think 解决了 10/12。 - 顶尖人类团队解决了 11/12。 GPT-5 也解决了 11/12,而一个实验性的推理模型解决了最难的问题。 竞争编程与构建大规模系统或编写生产代码有很大不同。我希望看到更多反映现实世界软件工程任务的基准测试。