Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro właśnie zdobył pierwsze miejsce w naszym nowym Indeksie AA-Omniscience — ale to złożona historia
AA-Omniscience to nasza nowa ocena wiedzy i halucynacji. Przywództwo Gemini 3 Pro wynika z jego wysokiej dokładności (procent poprawnych odpowiedzi); model zdobył ogromne 14 punktów więcej niż następny model o najwyższej dokładności, Grok 4. Wskaźnik halucynacji Gemini 3 Pro w ocenie wynosi 88%, co jest takie samo jak w przypadku Gemini 2.5 Pro i Gemini 2.5 Flash. Sugeruje to, że Gemini 3 Pro poczynił znaczne postępy w wiedzy, ale nie tak materialne postępy w tendencji do halucynacji.
Mierzymy wskaźnik halucynacji na podstawie tego, jak często model odpowiada błędnie, gdy powinien odmówić, definiowany jako proporcja błędnych odpowiedzi do wszystkich niepoprawnych prób. W AA-Omniscience stwierdziliśmy, że istnieje niewielka korelacja między dokładnością a wskaźnikiem halucynacji.
Dodatkowo stwierdziliśmy, że istnieje wysoka korelacja między rozmiarem modeli z otwartymi wagami a dokładnością (ale nie z wskaźnikiem halucynacji). W związku z tym bardzo wysoka dokładność Gemini 3 Pro sugeruje, że jest to bardzo duży model.
Zobacz poniżej dalsze szczegóły dotyczące AA-Omniscience 👇

Najlepsze
Ranking
Ulubione

