熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
[@SentientAGI SPIN-Bench 的更新]
我總結了 SPIN-Bench 的內容。
SPIN-Bench 概述
SPIN-Bench 是一個基準,用於評估大型語言模型(LLM)的戰略規劃、互動和談判能力,測量多代理環境中的社會智能。
背景與目的
開發:Sentient AGI(@SentientAGI)、普林斯頓大學、德州大學奧斯汀分校合作
發表:2025 年 COLM,arXiv 論文(2025.03)
目的:檢查 LLM 在長期規劃、不確定性下的談判、意圖推理等方面的社會智能極限
主要特點
組成:基準(任務和標準)+ 競技場(模擬)
調節因素:行為空間、狀態複雜度、代理數量
指標:成功率、計劃最優性、樣本效率、協調結果
評估領域
PDDL 規劃 - 長期規劃、約束追蹤
競爭性棋盤遊戲 - 對抗性預測、分支爆炸應對
合作卡牌遊戲 - 部分可觀察性、團隊協調
多代理談判 - 聯盟形成、虛張聲勢檢測
LLM 性能
優勢:簡單推理、短期規劃
劣勢:多步推理、大規模狀態處理、社會協調
與人類及專業解決者的性能差距
那麼...

熱門
排行
收藏
