实际上,这是一个相当聪明且高数据的幻觉基准,~与我对相对能力的直觉相匹配
OpenRouter
OpenRouter8月15日 00:29
经过一周,GPT-5 在我们专有模型的工具调用准确率排行榜上名列第一🥇 第二名是 Claude 4.1 Opus,准确率为 99.5% 详情 👇
22.66K