トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
[@SentientAGI SPIN-Benchの更新情報]
SPIN-Benchとは何かをまとめてみました。
SPIN-Benchの概要
SPIN-Benchは、大規模言語モデル(LLM)の戦略的計画、対話、交渉能力を評価し、マルチエージェント環境におけるソーシャルインテリジェンスを測定するベンチマークです。
背景と目的
開発者: Sentient AGI (@SentientAGI)、プリンストン、UT オースティンのコラボレーション
発表: 2025 COLM, arXiv 論文 (2025.03)
目的: 長期計画、不確実性の下での交渉、意図的な推論など、LLM の社会的知能の限界を調べます。
主な機能
構成:ベンチマーク(課題と基準)+アリーナ(シミュレーション)
モデレーター: アクション空間、状態の複雑さ、エージェントの数
指標:成功率、計画の最適性、サンプル効率、調整結果
評価ドメイン
PDDL 計画 - 長期計画、制約追跡
競争力のあるボードゲーム - 敵対的予測、四半期ごとの幅の回答
協力型カードゲーム - 部分的な可観測性、チームの調整
マルチエージェント・ネゴシエーション - 同盟の形成、ブラフの検出
LLMのパフォーマンス
強み:単純な推論、短期的な計画
弱点:多段階推論、大規模な状態処理、社会的調整
人間とプロのソルバーに対するパフォーマンスの差
そうしたら...

トップ
ランキング
お気に入り
