🚨 AutoBench 1.0 – 第四次運行已上線 📷 - 33 個前沿模型排名(包括 GPT-5.1、Gemini 3 Pro、Grok 4.1、Kimi K2 Thinking 等) - 21 個排名模型 - 300 多個新問題生成 - 超過 220,000 個個別排名 這是我們迄今為止最抗操控的評估。 而且是的……贏家並不是大多數人所預期的。 1/13