المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
مقارنة عوامل الترميز ذات الأفق الطويل
وكلاء البرمجة الذكاء الاصطناعي يبدون مميزين في معايير البرمجة الحالية. لكن هذه المعايير غالبا ما تقوم بتحسين واختبار الشيء الخطأ.
يقدم هذا البحث الجديد SWE-EVO، وهو معيار لتطور البرمجيات على مدى العيد.
ما يصل إلى 80٪ من جهود هندسة البرمجيات يتضمن صيانة وتطوير قواعد الشيفرة القديمة بدلا من البناء من الصفر. المعايير الحالية تغفل هذا تماما. يكشف SWE-EVO الفجوة بين حل المشكلات المعزولة وتنفيذ تطور حقيقي للبرمجيات.
بدلا من الحلول ذات المشكلة الواحدة، يجب على الوكلاء تفسير ملاحظات الإصدار وتنفيذ تغييرات شاملة تغطي في المتوسط 21 ملفا، يتم التحقق منها مقابل مجموعات اختبار بمتوسط 874 اختبارا لكل مثيل.
GPT-5 مع OpenHands يحقق 65٪ على SWE-Bench Verified لكنه يحقق فقط 21٪ على SWE-EVO.
يجد المؤلفون أن الوكلاء الحاليين يواجهون صعوبة في التفكير المستمر ومتعدد الملفات.
تم بناء هذا المعيار من ملاحظات إصدار سبعة مشاريع بايثون مفتوحة المصدر ناضجة، بما في ذلك scikit-learn وpydantic وdask. كل مهمة تتطلب تنفيذ تغييرات عادة ما تمتد عبر عدة طلبات سحب. الرقع الذهبية في المتوسط 610 أسطر محررة عبر 21 ملفا و51 وظيفة.
تكشف النتائج عبر 11 نموذجا عن أنماط متسقة. النماذج الأكبر تتفوق على النماذج الأصغر. GPT-5 يحل 21٪ مقابل GPT-5-mini بنسبة 10٪ وGPT-5-nano بنسبة 4٪. يعكس هذا التصنيف أداء SWE-Bench، مما يؤكد أن SWE-EVO معيار ذي معنى.
يظهر تحليل الفشل أنماطا مميزة حسب قدرة النموذج. أقوى النماذج تفشل بشكل رئيسي في اتباع التعليمات، مما يسيء تفسير ملاحظات الإصدار الدقيقة. النماذج الأضعف تواجه صعوبة في استخدام الأدوات وأخطاء النحو. هذا يشير إلى أن صعوبة SWE-EVO تنبع من التفكير الدلالي، وليس من كفاءة الواجهة.
الورقة:
تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتي:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
