[@SentientAGI SPIN-Benchの更新情報] SPIN-Benchとは何かをまとめてみました。 SPIN-Benchの概要 SPIN-Benchは、大規模言語モデル(LLM)の戦略的計画、対話、交渉能力を評価し、マルチエージェント環境におけるソーシャルインテリジェンスを測定するベンチマークです。 背景と目的 開発者: Sentient AGI (@SentientAGI)、プリンストン、UT オースティンのコラボレーション 発表: 2025 COLM, arXiv 論文 (2025.03) 目的: 長期計画、不確実性の下での交渉、意図的な推論など、LLM の社会的知能の限界を調べます。 主な機能 構成:ベンチマーク(課題と基準)+アリーナ(シミュレーション) モデレーター: アクション空間、状態の複雑さ、エージェントの数 指標:成功率、計画の最適性、サンプル効率、調整結果 評価ドメイン PDDL 計画 - 長期計画、制約追跡 競争力のあるボードゲーム - 敵対的予測、四半期ごとの幅の回答 協力型カードゲーム - 部分的な可観測性、チームの調整 マルチエージェント・ネゴシエーション - 同盟の形成、ブラフの検出 LLMのパフォーマンス 強み:単純な推論、短期的な計画 弱点:多段階推論、大規模な状態処理、社会的調整 人間とプロのソルバーに対するパフォーマンスの差 そうしたら...