[@SentientAGI SPIN-Bench 的更新] 我總結了 SPIN-Bench 的內容。 SPIN-Bench 概述 SPIN-Bench 是一個基準,用於評估大型語言模型(LLM)的戰略規劃、互動和談判能力,測量多代理環境中的社會智能。 背景與目的 開發:Sentient AGI(@SentientAGI)、普林斯頓大學、德州大學奧斯汀分校合作 發表:2025 年 COLM,arXiv 論文(2025.03) 目的:檢查 LLM 在長期規劃、不確定性下的談判、意圖推理等方面的社會智能極限 主要特點 組成:基準(任務和標準)+ 競技場(模擬) 調節因素:行為空間、狀態複雜度、代理數量 指標:成功率、計劃最優性、樣本效率、協調結果 評估領域 PDDL 規劃 - 長期規劃、約束追蹤 競爭性棋盤遊戲 - 對抗性預測、分支爆炸應對 合作卡牌遊戲 - 部分可觀察性、團隊協調 多代理談判 - 聯盟形成、虛張聲勢檢測 LLM 性能 優勢:簡單推理、短期規劃 劣勢:多步推理、大規模狀態處理、社會協調 與人類及專業解決者的性能差距 那麼...