Gemini 3 Pro właśnie zdobył pierwsze miejsce w naszym nowym Indeksie AA-Omniscience — ale to złożona historia AA-Omniscience to nasza nowa ocena wiedzy i halucynacji. Przywództwo Gemini 3 Pro wynika z jego wysokiej dokładności (procent poprawnych odpowiedzi); model zdobył ogromne 14 punktów więcej niż następny model o najwyższej dokładności, Grok 4. Wskaźnik halucynacji Gemini 3 Pro w ocenie wynosi 88%, co jest takie samo jak w przypadku Gemini 2.5 Pro i Gemini 2.5 Flash. Sugeruje to, że Gemini 3 Pro poczynił znaczne postępy w wiedzy, ale nie tak materialne postępy w tendencji do halucynacji. Mierzymy wskaźnik halucynacji na podstawie tego, jak często model odpowiada błędnie, gdy powinien odmówić, definiowany jako proporcja błędnych odpowiedzi do wszystkich niepoprawnych prób. W AA-Omniscience stwierdziliśmy, że istnieje niewielka korelacja między dokładnością a wskaźnikiem halucynacji. Dodatkowo stwierdziliśmy, że istnieje wysoka korelacja między rozmiarem modeli z otwartymi wagami a dokładnością (ale nie z wskaźnikiem halucynacji). W związku z tym bardzo wysoka dokładność Gemini 3 Pro sugeruje, że jest to bardzo duży model. Zobacz poniżej dalsze szczegóły dotyczące AA-Omniscience 👇