Gemini 3 Pro acabou de conquistar a posição #1 no nosso novo Índice AA-Omniscience — mas é uma história cheia de nuances AA-Oniciência é nossa nova avaliação de conhecimento e alucinação. A liderança do Gemini 3 Pro é impulsionada por sua alta Precisão (porcentagem correta); o modelo obteve uma pontuação impressionante de 14 pontos maior que o segundo modelo com maior precisão, o Grok 4. A taxa de alucinação do Gemini 3 Pro na avaliação é de 88%, a mesma do Gemini 2.5 Pro e do Gemini 2.5 Flash. Isso sugere que o Gemini 3 Pro obteve ganhos substanciais em conhecimento, mas não como ganhos materiais em sua tendência a alucinar. Medimos a Taxa de Alucinações com base na frequência com que o modelo responde errado quando deveria ter recusado, definida como a proporção de respostas erradas entre todas as tentativas não corretas. Em AA-Omniscience, encontramos pouca correlação entre Precisão e Taxa de Alucinação. Além disso, encontramos uma alta correlação entre o tamanho dos modelos de pesos abertos e a Precisão (mas não a Taxa de Alucinação). Assim, a alta precisão do Gemini 3 Pro sugere que é um modelo muito grande. Veja abaixo para mais detalhes sobre AA-Omniscience 👇