Gemini 3 Proは新しいAA-Omniscience Indexで#1の座を獲得しましたが、それは微妙な物語です AA-全知は私たちの新しい知識と幻覚の評価です。Gemini 3 Proのリーダーシップは高い精度(正確率)によって支えられています。このモデルは、次に精度の高いモデルであるGrok 4よりも14ポイントも高いスコアを獲得しました。評価中のGemini 3 Proの幻覚率は88%で、Gemini 2.5 ProやGemini 2.5 Flashと同様です。これは、ジェミニ3プロが知識面で大幅な進歩を遂げたことを示唆していますが、幻覚現象の傾向において物質的な進歩は達成していません。 幻覚率は、モデルが拒否すべき答えを間違える頻度、つまり不正解のうち不正解の割合で測定します。AA-Omniscienceでは、命中率と幻覚率の間にほとんど相関関係がないことがわかりました。 さらに、オープンウェイトモデルのサイズと精度(ただし幻覚率は除く)に高い相関があることがわかりました。したがって、Gemini 3 Proの非常に高い精度は、非常に大型のモデルであることを示唆しています。 AA-全知👇に関する詳細は以下をご覧ください