DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Gemini 3 Pro tocmai a ocupat locul #1 în noul nostru AA-Omniscience Index — dar povestea este nuanțată AA-Omnisciența este evaluarea noastră nouă a cunoașterii și halucinațiilor. Conducerea Gemini 3 Pro este determinată de acuratețea sa ridicată (procentaj corect); modelul a obținut cu 14 puncte mai mult decât următorul model cu cea mai mare acuratețe, Grok 4. Rata de halucinații a Gemini 3 Pro în evaluare este de 88%, aceeași cu Gemini 2.5 Pro și Gemini 2.5 Flash. Aceasta sugerează că Gemini 3 Pro a obținut progrese substanțiale în cunoaștere, dar nu ca progrese materiale în tendința sa de a avea halucinații. Măsurăm rata halucinațiilor pe baza cât de des modelul răspunde greșit când ar fi trebuit să refuze, definită ca proporția răspunsurilor greșite din toate încercările necorecte. În AA-Omniscience, am constatat că există puțină corelație între acuratețe și rata halucinațiilor. În plus, am constatat că există o corelație ridicată între dimensiunea modelelor cu greutăți deschise și acuratețe (dar nu și rata halucinațiilor). Astfel, acuratețea foarte ridicată a Gemini 3 Pro sugerează că este un model foarte mare. Vezi mai jos detalii suplimentare despre AA-Omnisciență 👇

Limită superioară

Clasament

Favorite