DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Gemini 3 Pro baru saja menempati posisi #1 dalam Indeks AA-Omniscience baru kami — tetapi ini adalah cerita yang bernuansa AA-Omniscience adalah pengetahuan baru dan halusinasi kita. Kepemimpinan Gemini 3 Pro didorong oleh Akurasinya yang tinggi (persentase benar); model ini mencetak 14 poin lebih tinggi dari model akurasi tertinggi berikutnya, Grok 4. Tingkat Halusinasi Gemini 3 Pro dalam evaluasi adalah 88%, sama dengan Gemini 2.5 Pro dan Gemini 2.5 Flash. Ini menunjukkan Gemini 3 Pro membuat keuntungan besar dalam pengetahuan tetapi tidak sebagai keuntungan material dalam kecenderungannya untuk berhalusinasi. Kami mengukur Tingkat Halusinasi berdasarkan seberapa sering model menjawab dengan salah ketika seharusnya menolak, didefinisikan sebagai proporsi jawaban yang salah dari semua upaya yang tidak benar. Dalam AA-Omniscience, kami menemukan ada sedikit korelasi antara Akurasi dan Tingkat Halusinasi. Selain itu, kami menemukan ada korelasi yang tinggi antara ukuran model bobot terbuka dan Akurasi (tetapi bukan Tingkat Halusinasi). Dengan demikian, Akurasi Gemini 3 Pro yang sangat tinggi menunjukkan bahwa ini adalah model yang sangat besar. Lihat di bawah untuk detail lebih lanjut mengenai AA-Omniscience 👇

Teratas

Peringkat

Favorit