一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Gemini 3 Pro 剛剛在我們的新 AA-Omniscience 指數中獲得了第一名——但這是一個微妙的故事 AA-Omniscience 是我們新的知識和幻覺評估。Gemini 3 Pro 的領導地位是由其高準確率（正確百分比）驅動的；該模型的得分比第二高的準確率模型 Grok 4 高出 14 分。Gemini 3 Pro 在評估中的幻覺率為 88%，與 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。這表明 Gemini 3 Pro 在知識上取得了實質性進展，但在幻覺傾向上並沒有顯著的改善。我們根據模型在應該拒絕時錯誤回答的頻率來衡量幻覺率，定義為錯誤答案與所有非正確嘗試的比例。在 AA-Omniscience 中，我們發現準確率與幻覺率之間的相關性很小。此外，我們發現開放權重模型的大小與準確率之間存在高度相關性（但與幻覺率無關）。因此，Gemini 3 Pro 的非常高的準確率表明它是一個非常大的模型。有關 AA-Omniscience 的更多詳細信息，請參見下方 👇