Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro vừa chiếm vị trí số 1 trong Chỉ số AA-Omniscience mới của chúng tôi — nhưng đó là một câu chuyện phức tạp
AA-Omniscience là đánh giá về kiến thức và ảo giác mới của chúng tôi. Sự dẫn đầu của Gemini 3 Pro được thúc đẩy bởi độ Chính xác cao (tỷ lệ đúng); mô hình này đã ghi được 14 điểm cao hơn mô hình có độ chính xác cao thứ hai, Grok 4. Tỷ lệ Ảo giác của Gemini 3 Pro trong đánh giá là 88%, giống như Gemini 2.5 Pro và Gemini 2.5 Flash. Điều này cho thấy Gemini 3 Pro đã đạt được những tiến bộ đáng kể trong kiến thức nhưng không có sự cải thiện đáng kể trong xu hướng ảo giác của nó.
Chúng tôi đo lường Tỷ lệ Ảo giác dựa trên tần suất mà mô hình trả lời sai khi lẽ ra nó nên từ chối, được định nghĩa là tỷ lệ giữa các câu trả lời sai so với tất cả các nỗ lực không đúng. Trong AA-Omniscience, chúng tôi nhận thấy có ít mối tương quan giữa Độ Chính xác và Tỷ lệ Ảo giác.
Ngoài ra, chúng tôi phát hiện có mối tương quan cao giữa kích thước của các mô hình trọng số mở và Độ Chính xác (nhưng không phải Tỷ lệ Ảo giác). Do đó, Độ Chính xác rất cao của Gemini 3 Pro cho thấy nó là một mô hình rất lớn.
Xem bên dưới để biết thêm chi tiết về AA-Omniscience 👇

Hàng đầu
Thứ hạng
Yêu thích

