[Pembaruan tentang @SentientAGI SPIN-Bench] Saya merangkum tentang apa itu SPIN-Bench. Ikhtisar SPIN-Bench SPIN-Bench adalah tolok ukur yang mengevaluasi perencanaan strategis, interaksi, dan kemampuan negosiasi model bahasa besar (LLM), mengukur kecerdasan sosial mereka dalam lingkungan multi-agen. Latar Belakang dan Tujuan Pengembang: Sentient AGI (@SentientAGI), Princeton, UT Austin collaboration Presentasi: 2025 COLM, makalah arXiv (2025.03) Tujuan: Periksa keterbatasan kecerdasan sosial LLM, termasuk perencanaan jangka panjang, negosiasi di bawah ketidakpastian, dan penalaran yang disengaja. Fitur utama Komposisi: Tolok Ukur (Tantangan & Kriteria) + Arena (Simulasi) Moderator: Ruang tindakan, kompleksitas status, jumlah agen Metrik: Tingkat keberhasilan, optimalitas perencanaan, efisiensi sampel, hasil penyesuaian Domain Evaluasi Perencanaan PDDL - Perencanaan Jangka Panjang, Pelacakan Kendala Permainan Papan Kompetitif - Prediksi Permusuhan, Tanggapan Lebar Triwulanan Permainan Kartu Co-op - Observabilitas Parsial, Koordinasi Tim Negosiasi Multi-Agen - Membentuk Aliansi, Mendeteksi Gertakan Kinerja LLM Kekuatan: Penalaran sederhana, perencanaan jangka pendek Kelemahan: Penalaran multi-langkah, penanganan negara skala besar, koordinasi sosial Kesenjangan kinerja dibandingkan pemecah manusia dan profesional Kemudian ...