AI 基准测试有点像我们在学校里成长过程中接触的标准化考试。OpenAI 似乎是为了应对考试而训练了 5.2,制作了一个在考试中表现更好而不是独立完成有用事情的模型。我希望他们能进行调整。目前我在使用 Gemini 和 Grok。