[تحديث على @SentientAGI SPIN-Bench] لقد لخصت ما يدور حوله SPIN-Bench. نظرة عامة على SPIN-Bench SPIN-Bench هو معيار يقيم قدرات التخطيط الاستراتيجي والتفاعل والتفاوض لنماذج اللغة الكبيرة (LLMs) ، ويقيس ذكائهم الاجتماعي في بيئة متعددة الوكلاء. الخلفية والغرض المطور: Sentient AGI (@SentientAGI) ، برينستون ، يوتا أوستن التقديم: 2025 COLM ، ورقة arXiv (2025.03) الغرض: فحص قيود الذكاء الاجتماعي لماجستير الحقوق ، بما في ذلك التخطيط طويل الأجل ، والتفاوض في ظل عدم اليقين ، والتفكير المتعمد. دلائل الميزات التركيب: المعيار (التحديات والمعايير) + الساحة (المحاكاة) المنسقون: مساحة العمل ، تعقيد الحالة ، عدد الوكلاء المقاييس: معدل النجاح ، التخطيط الأمثل ، كفاءة العينة ، نتائج التعديل مجالات التقييم تخطيط PDDL - التخطيط طويل الأجل ، تتبع القيود ألعاب الطاولة التنافسية - تنبؤات الخصومة ، استجابات العرض ربع السنوية ألعاب الورق التعاونية - المراقبة الجزئية ، تنسيق الفريق التفاوض متعدد الوكلاء - تشكيل التحالفات ، واكتشاف الخداع أداء ماجستير في القانون نقاط القوة: التفكير البسيط ، التخطيط قصير المدى نقاط الضعف: التفكير متعدد الخطوات ، التعامل مع الحالة على نطاق واسع ، التنسيق الاجتماعي فجوة الأداء مقارنة بالمحللين البشريين والمحترفين ثم ...