Gemini 3 Pro 剛剛在我們的新 AA-Omniscience 指數中獲得了第一名——但這是一個微妙的故事 AA-Omniscience 是我們新的知識和幻覺評估。Gemini 3 Pro 的領導地位是由其高準確率(正確百分比)驅動的;該模型的得分比第二高的準確率模型 Grok 4 高出 14 分。Gemini 3 Pro 在評估中的幻覺率為 88%,與 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。這表明 Gemini 3 Pro 在知識上取得了實質性進展,但在幻覺傾向上並沒有顯著的改善。 我們根據模型在應該拒絕時錯誤回答的頻率來衡量幻覺率,定義為錯誤答案與所有非正確嘗試的比例。在 AA-Omniscience 中,我們發現準確率與幻覺率之間的相關性很小。 此外,我們發現開放權重模型的大小與準確率之間存在高度相關性(但與幻覺率無關)。因此,Gemini 3 Pro 的非常高的準確率表明它是一個非常大的模型。 有關 AA-Omniscience 的更多詳細信息,請參見下方 👇