AI 基準測試有點像我們在學校時期所經歷的標準化考試。OpenAI 似乎是針對考試進行了教學,推出了 5.2 版本,並製作了一個在考試中表現更佳的模型,而不是能夠獨立做有用的事情。我希望他們能夠修正方向。目前我在使用 Gemini 和 Grok