分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

[@SentientAGI SPIN-Benchの更新情報] SPIN-Benchとは何かをまとめてみました。 SPIN-Benchの概要 SPIN-Benchは、大規模言語モデル(LLM)の戦略的計画、対話、交渉能力を評価し、マルチエージェント環境におけるソーシャルインテリジェンスを測定するベンチマークです。背景と目的開発者: Sentient AGI (@SentientAGI)、プリンストン、UT オースティンのコラボレーション発表: 2025 COLM, arXiv 論文 (2025.03) 目的: 長期計画、不確実性の下での交渉、意図的な推論など、LLM の社会的知能の限界を調べます。主な機能構成:ベンチマーク(課題と基準)+アリーナ(シミュレーション) モデレーター: アクション空間、状態の複雑さ、エージェントの数指標:成功率、計画の最適性、サンプル効率、調整結果評価ドメイン PDDL 計画 - 長期計画、制約追跡競争力のあるボードゲーム - 敵対的予測、四半期ごとの幅の回答協力型カードゲーム - 部分的な可観測性、チームの調整マルチエージェント・ネゴシエーション - 同盟の形成、ブラフの検出 LLMのパフォーマンス強み:単純な推論、短期的な計画弱点:多段階推論、大規模な状態処理、社会的調整人間とプロのソルバーに対するパフォーマンスの差そうしたら...

トップ

ランキング

お気に入り