المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
حصلت Gemini 3 Pro على المركز #1 في مؤشر AA-Omniscience الجديد لدينا — لكنها قصة معقدة
AA-العلم المطلق هو تقييمنا الجديد للمعرفة والهلوسة. قيادة جيميني 3 برو تعتمد على دقتها العالية (نسبة صحيحة)؛ حصل النموذج على درجة أعلى بفارق هائل بمقدار 14 نقطة عن النموذج التالي الأعلى دقة، وهو Grok 4. معدل الهلوسة في جيميني 3 برو في التقييم هو 88٪، وهو نفس معدل جيميني 2.5 برو وجيميني 2.5 فلاش. هذا يشير إلى أن جيميني 3 برو حقق تقدما كبيرا في المعرفة لكنه لم يكن متقدما جوهريا في ميله للهلوسة.
نقيس معدل الهلوسة بناء على عدد مرات إجابة النموذج الخاطئة عندما كان يجب أن يرفض، ويعرف بنسبة الإجابات الخاطئة من بين جميع المحاولات غير الصحيحة. في علم الجميع المجهولين (AA-Omniscience)، وجدنا أن هناك ارتباط ضئيل بين الدقة ومعدل الهلوسة.
بالإضافة إلى ذلك، وجدنا وجود ارتباط كبير بين حجم نماذج الأوزان المفتوحة والدقة (ولكن ليس معدل الهلوسة). وبالتالي، فإن دقة Gemini 3 Pro العالية جدا تشير إلى أنه نموذج كبير جدا.
انظر أدناه لمزيد من التفاصيل حول AA-Omniscience 👇

الأفضل
المُتصدِّرة
التطبيقات المفضلة

