المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تم إصدار SWE-BENCH PRO
حتى أقوى نماذج ترميز الذكاء الاصطناعي تكافح عندما يصبح الاختبار أكثر صعوبة.
في SWE-BENCH Verified ، سجلوا حوالي 70٪. في SWE-BENCH PRO الأكثر صرامة ، انخفض ذلك إلى أقل من 25٪.
لقد كان SWE-BENCH Verified فوضويا وسهلا للغاية ، وقد رأت النماذج الإجابات أثناء التدريب ، ولا تعكس المشكلات عمل برمجي حقيقي. يعمل PRO على إصلاح ذلك عن طريق إضافة مشاريع طويلة على مستوى المؤسسة أقرب إلى الحياة الواقعية.
- في المجموعة العامة: GPT-5 يحل 23.3٪ ، كلود أوبوس 4.1 يحل 22.7٪.
- في المجموعة التجارية: أكثر صعوبة. يسجل كلود 17.8٪ ، GPT-5 يسجل 14.9٪.
ثلاثة أشياء تعلمناها
1. ضربت النماذج الكبيرة جدار التفكير. يمكن ل GPT-5 و Claude كتابة رمز نظيف واستخدام الأدوات ، لكنهما غالبا ما يخطئان في المنطق.
2. النماذج الأصغر تفشل في وقت سابق. إنهم ينقطعون إلى الأساسيات مثل بناء الجملة أو التنسيق أو استخدام الأداة.
3. كل نموذج له نقاط ضعفه الخاصة. ينفد Sonnet من نافذة السياق. يقوم الجوزاء بمزيج من أخطاء الأداة وبناء الجملة والتفكير.
تتعامل النماذج مع Python و Go بشكل أفضل. ما زالوا يكافحون بشدة على JavaScript و TypeScript.
الذكاء الاصطناعي الحالي بعيد كل البعد عن كونه مهندس برمجيات موثوق به. النجاح في المهام البسيطة مضلل. التحدي الحقيقي الآن ليس كتابة التعليمات البرمجية ، إنه التفكير في المشكلة.


الأفضل
المُتصدِّرة
التطبيقات المفضلة