一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Gemini 3 Pro 刚刚在我们的新 AA-Omniscience 指数中获得了第 #1 名——但这是一个复杂的故事 AA-Omniscience 是我们新的知识和幻觉评估。Gemini 3 Pro 的领导地位源于其高准确率（正确百分比）；该模型的得分比下一个最高准确率的模型 Grok 4 高出 14 分。Gemini 3 Pro 在评估中的幻觉率为 88%，与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识方面取得了显著进展，但在幻觉倾向上并没有实质性的改善。我们根据模型在应该拒绝时错误回答的频率来衡量幻觉率，定义为错误答案占所有非正确尝试的比例。在 AA-Omniscience 中，我们发现准确率与幻觉率之间几乎没有相关性。此外，我们发现开放权重模型的大小与准确率之间存在高度相关性（但与幻觉率无关）。因此，Gemini 3 Pro 的非常高的准确率表明它是一个非常大的模型。有关 AA-Omniscience 的更多详细信息，请参见下文 👇