Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro tocmai a ocupat locul #1 în noul nostru AA-Omniscience Index — dar povestea este nuanțată
AA-Omnisciența este evaluarea noastră nouă a cunoașterii și halucinațiilor. Conducerea Gemini 3 Pro este determinată de acuratețea sa ridicată (procentaj corect); modelul a obținut cu 14 puncte mai mult decât următorul model cu cea mai mare acuratețe, Grok 4. Rata de halucinații a Gemini 3 Pro în evaluare este de 88%, aceeași cu Gemini 2.5 Pro și Gemini 2.5 Flash. Aceasta sugerează că Gemini 3 Pro a obținut progrese substanțiale în cunoaștere, dar nu ca progrese materiale în tendința sa de a avea halucinații.
Măsurăm rata halucinațiilor pe baza cât de des modelul răspunde greșit când ar fi trebuit să refuze, definită ca proporția răspunsurilor greșite din toate încercările necorecte. În AA-Omniscience, am constatat că există puțină corelație între acuratețe și rata halucinațiilor.
În plus, am constatat că există o corelație ridicată între dimensiunea modelelor cu greutăți deschise și acuratețe (dar nu și rata halucinațiilor). Astfel, acuratețea foarte ridicată a Gemini 3 Pro sugerează că este un model foarte mare.
Vezi mai jos detalii suplimentare despre AA-Omnisciență 👇

Limită superioară
Clasament
Favorite

