Gemini 3 Pro acaba de ocupar el puesto #1 en nuestro nuevo Índice AA-Omniscience, pero es una historia matizada. AA-Omniscience es nuestra nueva evaluación de conocimiento y alucinaciones. El liderazgo de Gemini 3 Pro se debe a su alta Precisión (porcentaje correcto); el modelo obtuvo 14 puntos más que el siguiente modelo con mayor precisión, Grok 4. La Tasa de Alucinaciones de Gemini 3 Pro en la evaluación es del 88%, la misma que Gemini 2.5 Pro y Gemini 2.5 Flash. Esto sugiere que Gemini 3 Pro ha logrado avances sustanciales en conocimiento, pero no en cuanto a su tendencia a alucinar. Medimos la Tasa de Alucinaciones en función de cuán a menudo el modelo responde incorrectamente cuando debería haber rechazado, definido como la proporción de respuestas incorrectas sobre todos los intentos no correctos. En AA-Omniscience, encontramos que había poca correlación entre la Precisión y la Tasa de Alucinaciones. Además, encontramos que hay una alta correlación entre el tamaño de los modelos de pesos abiertos y la Precisión (pero no con la Tasa de Alucinaciones). Por lo tanto, la muy alta Precisión de Gemini 3 Pro sugiere que es un modelo muy grande. Consulta a continuación para más detalles sobre AA-Omniscience 👇