المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[تحديث على @SentientAGI SPIN-Bench]
لقد لخصت ما يدور حوله SPIN-Bench.
نظرة عامة على SPIN-Bench
SPIN-Bench هو معيار يقيم قدرات التخطيط الاستراتيجي والتفاعل والتفاوض لنماذج اللغة الكبيرة (LLMs) ، ويقيس ذكائهم الاجتماعي في بيئة متعددة الوكلاء.
الخلفية والغرض
المطور: Sentient AGI (@SentientAGI) ، برينستون ، يوتا أوستن
التقديم: 2025 COLM ، ورقة arXiv (2025.03)
الغرض: فحص قيود الذكاء الاجتماعي لماجستير الحقوق ، بما في ذلك التخطيط طويل الأجل ، والتفاوض في ظل عدم اليقين ، والتفكير المتعمد.
دلائل الميزات
التركيب: المعيار (التحديات والمعايير) + الساحة (المحاكاة)
المنسقون: مساحة العمل ، تعقيد الحالة ، عدد الوكلاء
المقاييس: معدل النجاح ، التخطيط الأمثل ، كفاءة العينة ، نتائج التعديل
مجالات التقييم
تخطيط PDDL - التخطيط طويل الأجل ، تتبع القيود
ألعاب الطاولة التنافسية - تنبؤات الخصومة ، استجابات العرض ربع السنوية
ألعاب الورق التعاونية - المراقبة الجزئية ، تنسيق الفريق
التفاوض متعدد الوكلاء - تشكيل التحالفات ، واكتشاف الخداع
أداء ماجستير في القانون
نقاط القوة: التفكير البسيط ، التخطيط قصير المدى
نقاط الضعف: التفكير متعدد الخطوات ، التعامل مع الحالة على نطاق واسع ، التنسيق الاجتماعي
فجوة الأداء مقارنة بالمحللين البشريين والمحترفين
ثم ...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
