المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الحجة المؤيدة لتوسيع البيئة //
قد يكون توسيع البيئة مهما بقدر مقياس النماذج في الذكاء الاصطناعي الوكلاء.
تشير الأبحاث الحالية الذكاء الاصطناعي إلى أن بناء نموذج قوي الذكاء الاصطناعي الوكيل ليس مجرد التفكير الأفضل. بل يتعلق أيضا ببيئات أفضل.
النهج الافتراضي لتدريب وكلاء الذكاء الاصطناعي القادرين اليوم هو جمع المسارات الثابتة أو العروض البشرية. هذا يتطلب المزيد من البيانات، والمزيد من الأمثلة، ومزيدا من جهد التعليق.
لكن البيانات الثابتة لا يمكن أن تعلم اتخاذ القرار الديناميكي. النماذج المدربة بهذه الطريقة تكافح مع الطبيعة الطويلة الأمد والموجهة نحو الأهداف للمهام الوكالية الحقيقية.
يقدم هذا البحث الجديد Nex-N1، وهو إطار عمل يقوم بشكل منهجي بتوسيع تنوع وتعقيد بيئات التدريب التفاعلية بدلا من مجرد توسيع البيانات.
قدرات الوكلاء تنشأ من التفاعل، وليس من التقليد. بدلا من جمع المزيد من العروض التوضيحية، قاموا ببناء بنية تحتية لتوليد هياكل وكلاء متنوعة وسير عمل تلقائيا من مواصفات اللغة الطبيعية.
يتكون النظام من ثلاثة مكونات. يوفر NexAU (عالم الوكلاء) إطار عمل وكيل شامل يولد تسلسلات هرمية معقدة للوكلاء من تكوينات بسيطة. يقوم NexA4A (وكيل مقابل وكيل) تلقائيا بتركيب هياكل وكلاء متنوعة من اللغة الطبيعية. يجسر NexGAP فجوة الواقع بين المحاكاة من خلال دمج أدوات MCP الواقعية لتوليف مسار المسار الأرضي.
النتائج:
- على منصة τ2، يحصل Nex-N1 المبني على DeepSeek-V3.1 على 80.2، متفوقا على النموذج الأساسي البالغ 42.8.
- في SWE-bench Verified، يحقق Qwen3-32B-Nex-N1 نسبة 50.5٪ مقارنة بنموذج أساسي بنسبة 12.9٪.
- في BFCL v4 للاستخدام في الأدوات، يتفوق Nex-N1 (65.3) على GPT-5 (61.6).
في التقييمات البشرية لتطوير المشاريع الواقعية عبر 43 سيناريو ترميز، يفوز Nex-N1 أو يتعادلان مع كلود سونيت 4.5 في 64.5٪ من الحالات وضد GPT-5 في ~70٪ من الحالات.
كما بنوا وكيل بحث عميق على Nex-N1، محققا 47.0٪ في معيار البحث العميق، مع إمكانيات لتوليد تقارير مرئية، بما في ذلك الشرائح وملصقات البحث.
ورق:

الأفضل
المُتصدِّرة
التطبيقات المفضلة

