🤔 Baidu ERNIE 5.0 هنا - ما مدى جودته حقا؟ تقدم مراجعة مقروءة على نطاق واسع من المساهم في Zhihu toyama nao أعطال واضحة. تخلفت Baidu عن OpenAI بمقدار 3-6 أشهر مع الإصدارات المطابقة للإصدارات. بعد GPT-5 ، وصل ERNIE 5.0 على جديلة - وعلى عكس 4.5 المتسرع ، يبدو أخيرا وكأنه نموذج محلي قوي من الدرجة الأولى. يقفز الأداء ~ 80٪ على X1.1 ، وهو ما يطابق تقريبا MiniMax M2. يبدو أن بيانات التدريب أعيد بناؤها: المخرجات أنظف وأكثر تماسكا (الشكل 1). 👇 ها هي المقارنة المقطرة: ✅حيث يتحسن ERNIE 5.0 • التعليمات التالية: درجات عالية وحتى قمم من الدرجة الأولى - ولكن مع إخفاقات غريبة منخفضة الجودة (على سبيل المثال ، تنسيقات التاريخ غير المتسقة عبر التمريرات). • الحساب الأساسي: موثوق به للرياضيات على مستوى K12 ؛ أكثر استقرارا من X1.1 ، على الرغم من أنه لا يزال أضعف من M2 في المهام المعقدة. • إخراج أنظف بكثير: عانى X1.1 من البيانات المقطرة الصاخبة والترجمات المحرجة. يعمل ERNIE 5.0 على إصلاح هذا إلى حد كبير: سلاسل فكرية أكثر وضوحا ، وإجابات نهائية أنظف ، وقراءة أفضل. 🙋 حيث لا تزال تكافح • معدل هلوسة مرتفع: هناك الكثير من الإجابات الواثقة ولكن الخاطئة حول استعادة رموز الرياضيات ، وتدافع الشخصيات ، ومهام السياق الطويل - أقرب إلى أداء التفكير من الدرجة الثانية. • بصيرة منخفضة: يفشل في تحديد الأنماط الأساسية (# 46 نمط الحروف ، # 32 التفكير التقويمي) ، وغالبا ما يكون الغضب الغاشم بدلا من التجريد. • حلقات لا نهائية عرضية: نادرة (<3٪) ولكنها مفاجئة ، نظرا لأنها اختفت في النماذج المحلية الحديثة. • ضعف القدرة على تعدد الأدوار: غالبا ما ينسى القواعد أو المنعطفات السابقة قبل الجولة 7 ؛ تم تشغيل الحلقات بسهولة أكبر. 💬الحكم يبلغ عمر عصر تريليون المعلمة في الصين بالكاد 3 أشهر ، وقد قفزت بايدو بالفعل إلى نموذج 2T. ومع ذلك ، بالمقارنة مع Kimi K2 Thinking ، فإن ERNIE 5.0 يبدو "منتفخا" بعض الشيء - كبير وقادر ، ولكنه لا يستخدم وزنه بالكامل. ومع ذلك ، قد تكون هذه إشارة عودة @Baidu_Inc التي طال انتظارها - تذكير بأن بايدو تعتزم البقاء في سباق LLM. 📖 التقييم الكامل: 🔗 المعيار: #ERNIE5 #Baidu # الذكاء الاصطناعي #LLM #ChinaAI