熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Gemini 3 Pro 剛剛在我們的新 AA-Omniscience 指數中獲得了第一名——但這是一個微妙的故事
AA-Omniscience 是我們新的知識和幻覺評估。Gemini 3 Pro 的領導地位是由其高準確率(正確百分比)驅動的;該模型的得分比第二高的準確率模型 Grok 4 高出 14 分。Gemini 3 Pro 在評估中的幻覺率為 88%,與 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。這表明 Gemini 3 Pro 在知識上取得了實質性進展,但在幻覺傾向上並沒有顯著的改善。
我們根據模型在應該拒絕時錯誤回答的頻率來衡量幻覺率,定義為錯誤答案與所有非正確嘗試的比例。在 AA-Omniscience 中,我們發現準確率與幻覺率之間的相關性很小。
此外,我們發現開放權重模型的大小與準確率之間存在高度相關性(但與幻覺率無關)。因此,Gemini 3 Pro 的非常高的準確率表明它是一個非常大的模型。
有關 AA-Omniscience 的更多詳細信息,請參見下方 👇

熱門
排行
收藏

