المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
سجلت Verdent 76.1٪ في SWE-bench Verified ، وهبطت في الطبقة العليا جنبا إلى جنب مع Claude Sonnet 4.5 والنماذج الرائدة الأخرى.
Verdent هو نظام ترميز متعدد العوامل بالذكاء الذكاء الاصطناعي مصمم للعمل الهندسي الحقيقي. يقوم بتنسيق الوكلاء الفرعيين المتخصصين من خلال سير عمل التحقق من التعليمات البرمجية للخطة مع بنية التحقق أولا.
مزيد من التفاصيل أدناه 👇

يستخدم SWE-bench Verified مشكلات GitHub الحقيقية من مستودعات الإنتاج - المشكلات المعقدة متعددة الملفات التي تفصل وكلاء الترميز الفعليين عن الإكمال التلقائي الممجد. 76.1٪ pass@1 يعني حل 3 من أصل 4 مهام هندسية حقيقية بشكل مستقل.
لماذا تتفوق Verdent في SWE-bench Verified:
التوافق متعدد النماذج: يطابق وقت التشغيل غير النموذجي النموذج الصحيح لكل مرحلة (كلود للتحليل ، GPT-5 للمراجعة). أداء متسق مع شفافية كاملة وقابلية تكوين.
التحقق على الطيار الآلي: فحص النوع المدمج ، والتحليل الثابت ، وتنفيذ الاختبار مع دورات إعادة المحاولة / تصحيح الأخطاء التلقائية. يتعامل الوكلاء الفرعيون لمراجعة التعليمات البرمجية مع الاختلافات الكبيرة. يتجاوز "اجتياز الاختبارات" إلى "تلبية نية المطور".
دائما على المهمة: تتعقب قائمة المهام الصريحة التقدم وتمنع انحراف السياق في الجلسات الطويلة. يعكس سير عمل المطور البشري خطوة بخطوة، مما يحسن معدل النجاح وكفاءة الرمز المميز.
سير عمل Plan-Code-Valid:
1. وضع الخطة: خطط تنفيذ منظمة وقابلة للتحرير
2. تنسيق الوكيل الفرعي: الوكلاء المتخصصون (الباحث ، المراجع ، المدقق) التحكم المحدد من قبل المستخدم من خلال القواعد الوكيل (الوكلاء md) مع السلوك القابل للتخصيص: مستويات الحذر والأذونات وأنماط التعاون
3. DiffLens: تسليم التعليمات البرمجية الواضحة مع الاختلافات المنظمة + الملخصات
4. يبقى دائما في المهمة مع تتبع التقدم الصريح

ميزات جاهزة للإنتاج تتجاوز المعايير:
- محطة طويلة العمر (استمرار على غرار tmux)
- أوامر الشرطة المائلة (/init، /compact، أتمتة مخصصة)
- دعم MCP (بروتوكول سياق النموذج)
- ملحق VS Code + تطبيق مهام متوازية مستقل (Verdent Deck)
التفكير مهم: تظهر تجارب Verdent أن المزيد من الرموز المميزة للتفكير تؤدي إلى أداء أفضل. وجدوا تحسنا ~ 0.7٪ عند السماح للنماذج بمزيد من "وقت التفكير" - مما يثبت أن التعليمات البرمجية المتسرعة ليست رمزا جيدا ، حتى بالنسبة الذكاء الاصطناعي.

تباين البائع: ليس كل مزودي النماذج متساويين. كشفت اختباراتهم أن بعض مقدمي الخدمة (مثل AWS Bedrock) يظهرون تباينا أعلى في الأداء - فجوة تصل إلى 1.2٪ في ظل ظروف مماثلة. اختر البنية التحتية الخاصة بك بحكمة.
اكتشاف مفاجئ: عندما جردوا Verdent من الأدوات الأساسية فقط (bash ، القراءة ، الكتابة ، التحرير) ، بالكاد تغير أداء SWE-bench Verified
يكشف هذا عن التحيز المعياري المحتمل - الأدوات المتطورة مهمة للهندسة الحقيقية ، لكن المعايير الحالية قد لا تلتقط هذا التعقيد.
تم بناؤه بواسطة مهندسي TikTok و Baidu السابقين. يوحد Verdent النماذج الرائدة في الصناعة مثل GPT-5 و Sonnet 4.5 في نظام يركز على المطورين. هذا ما يبدو عليه الترميز الوكيل عندما يتم إنشاؤه للعمل الهندسي الحقيقي. يمكنك بدء الإصدار التجريبي المجاني هنا:
12.07K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

