Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[Pembaruan tentang @SentientAGI SPIN-Bench]
Saya merangkum tentang apa itu SPIN-Bench.
Ikhtisar SPIN-Bench
SPIN-Bench adalah tolok ukur yang mengevaluasi perencanaan strategis, interaksi, dan kemampuan negosiasi model bahasa besar (LLM), mengukur kecerdasan sosial mereka dalam lingkungan multi-agen.
Latar Belakang dan Tujuan
Pengembang: Sentient AGI (@SentientAGI), Princeton, UT Austin collaboration
Presentasi: 2025 COLM, makalah arXiv (2025.03)
Tujuan: Periksa keterbatasan kecerdasan sosial LLM, termasuk perencanaan jangka panjang, negosiasi di bawah ketidakpastian, dan penalaran yang disengaja.
Fitur utama
Komposisi: Tolok Ukur (Tantangan & Kriteria) + Arena (Simulasi)
Moderator: Ruang tindakan, kompleksitas status, jumlah agen
Metrik: Tingkat keberhasilan, optimalitas perencanaan, efisiensi sampel, hasil penyesuaian
Domain Evaluasi
Perencanaan PDDL - Perencanaan Jangka Panjang, Pelacakan Kendala
Permainan Papan Kompetitif - Prediksi Permusuhan, Tanggapan Lebar Triwulanan
Permainan Kartu Co-op - Observabilitas Parsial, Koordinasi Tim
Negosiasi Multi-Agen - Membentuk Aliansi, Mendeteksi Gertakan
Kinerja LLM
Kekuatan: Penalaran sederhana, perencanaan jangka pendek
Kelemahan: Penalaran multi-langkah, penanganan negara skala besar, koordinasi sosial
Kesenjangan kinerja dibandingkan pemecah manusia dan profesional
Kemudian ...

Teratas
Peringkat
Favorit
