Gemini 3 Pro 刚刚在我们的新 AA-Omniscience 指数中获得了第 #1 名——但这是一个复杂的故事 AA-Omniscience 是我们新的知识和幻觉评估。Gemini 3 Pro 的领导地位源于其高准确率(正确百分比);该模型的得分比下一个最高准确率的模型 Grok 4 高出 14 分。Gemini 3 Pro 在评估中的幻觉率为 88%,与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识方面取得了显著进展,但在幻觉倾向上并没有实质性的改善。 我们根据模型在应该拒绝时错误回答的频率来衡量幻觉率,定义为错误答案占所有非正确尝试的比例。在 AA-Omniscience 中,我们发现准确率与幻觉率之间几乎没有相关性。 此外,我们发现开放权重模型的大小与准确率之间存在高度相关性(但与幻觉率无关)。因此,Gemini 3 Pro 的非常高的准确率表明它是一个非常大的模型。 有关 AA-Omniscience 的更多详细信息,请参见下文 👇