Gemini 3 Pro только что занял 1-е место в нашем новом Индексе AA-Omniscience — но это сложная история AA-Omniscience — это наша новая оценка знаний и галлюцинаций. Лидерство Gemini 3 Pro обусловлено его высокой точностью (процент правильных ответов); модель набрала целых 14 баллов выше, чем следующая по точности модель, Grok 4. У Gemini 3 Pro уровень галлюцинаций в оценке составляет 88%, что так же, как и у Gemini 2.5 Pro и Gemini 2.5 Flash. Это предполагает, что Gemini 3 Pro достиг значительных успехов в знаниях, но не столь значительных успехов в своей склонности к галлюцинациям. Мы измеряем уровень галлюцинаций на основе того, как часто модель отвечает неправильно, когда она должна была отказаться, что определяется как доля неправильных ответов из всех некорректных попыток. В AA-Omniscience мы обнаружили, что между точностью и уровнем галлюцинаций существует небольшая корреляция. Кроме того, мы обнаружили, что существует высокая корреляция между размером открытых весовых моделей и точностью (но не уровнем галлюцинаций). Таким образом, очень высокая точность Gemini 3 Pro предполагает, что это очень большая модель. Смотрите ниже для получения дополнительных деталей относительно AA-Omniscience 👇