热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Gemini 3 Pro 刚刚在我们的新 AA-Omniscience 指数中获得了第 #1 名——但这是一个复杂的故事
AA-Omniscience 是我们新的知识和幻觉评估。Gemini 3 Pro 的领导地位源于其高准确率(正确百分比);该模型的得分比下一个最高准确率的模型 Grok 4 高出 14 分。Gemini 3 Pro 在评估中的幻觉率为 88%,与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识方面取得了显著进展,但在幻觉倾向上并没有实质性的改善。
我们根据模型在应该拒绝时错误回答的频率来衡量幻觉率,定义为错误答案占所有非正确尝试的比例。在 AA-Omniscience 中,我们发现准确率与幻觉率之间几乎没有相关性。
此外,我们发现开放权重模型的大小与准确率之间存在高度相关性(但与幻觉率无关)。因此,Gemini 3 Pro 的非常高的准确率表明它是一个非常大的模型。
有关 AA-Omniscience 的更多详细信息,请参见下文 👇

热门
排行
收藏

