DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Gemini 3 Pro ha appena conquistato il primo posto nel nostro nuovo Indice AA-Omniscience — ma è una storia sfumata AA-Omniscience è la nostra nuova valutazione della conoscenza e delle allucinazioni. La leadership di Gemini 3 Pro è guidata dalla sua alta Accuratezza (percentuale di risposte corrette); il modello ha ottenuto un punteggio di ben 14 punti superiore rispetto al modello con la seconda migliore accuratezza, Grok 4. Il tasso di allucinazione di Gemini 3 Pro nella valutazione è dell'88%, lo stesso di Gemini 2.5 Pro e Gemini 2.5 Flash. Questo suggerisce che Gemini 3 Pro ha fatto guadagni sostanziali in conoscenza ma non guadagni materiali nella sua tendenza a allucinare. Misuriamo il Tasso di Allucinazione in base a quanto spesso il modello risponde in modo errato quando avrebbe dovuto rifiutare, definito come la proporzione di risposte sbagliate su tutti i tentativi non corretti. In AA-Omniscience, abbiamo trovato che c'era poca correlazione tra Accuratezza e Tasso di Allucinazione. Inoltre, abbiamo scoperto che c'è una forte correlazione tra la dimensione dei modelli a pesi aperti e l'Accuratezza (ma non il Tasso di Allucinazione). Pertanto, l'alta Accuratezza di Gemini 3 Pro suggerisce che si tratta di un modello molto grande. Vedi di seguito per ulteriori dettagli riguardo ad AA-Omniscience 👇

Principali

Ranking

Preferiti