Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro hat gerade den 1. Platz in unserem neuen AA-Omniscience-Index eingenommen – aber es ist eine nuancierte Geschichte
AA-Omniscience ist unsere neue Bewertung von Wissen und Halluzinationen. Die Führungsposition von Gemini 3 Pro wird durch seine hohe Genauigkeit (Prozentsatz der richtigen Antworten) bestimmt; das Modell erzielte massive 14 Punkte mehr als das Modell mit der nächsthöheren Genauigkeit, Grok 4. Die Halluzinationsrate von Gemini 3 Pro in der Bewertung beträgt 88 %, dasselbe wie bei Gemini 2.5 Pro und Gemini 2.5 Flash. Dies deutet darauf hin, dass Gemini 3 Pro erhebliche Fortschritte im Wissen gemacht hat, jedoch nicht in dem Maße in seiner Neigung zu halluzinieren.
Wir messen die Halluzinationsrate basierend darauf, wie oft das Modell falsch antwortet, wenn es hätte ablehnen sollen, definiert als der Anteil der falschen Antworten an allen nicht korrekten Versuchen. In AA-Omniscience haben wir festgestellt, dass es wenig Korrelation zwischen Genauigkeit und Halluzinationsrate gibt.
Darüber hinaus haben wir festgestellt, dass es eine hohe Korrelation zwischen der Größe der offenen Gewichtmodelle und der Genauigkeit gibt (aber nicht mit der Halluzinationsrate). Daher deutet die sehr hohe Genauigkeit von Gemini 3 Pro darauf hin, dass es sich um ein sehr großes Modell handelt.
Siehe unten für weitere Details zu AA-Omniscience 👇

Top
Ranking
Favoriten

