[@SentientAGI Cập nhật về SPIN-Bench] Tôi đã tóm tắt nội dung của SPIN-Bench. Tổng quan về SPIN-Bench SPIN-Bench là một tiêu chuẩn đánh giá khả năng lập kế hoạch chiến lược, tương tác và đàm phán của các mô hình ngôn ngữ lớn (LLM), đo lường trí thông minh xã hội trong môi trường đa tác nhân. Bối cảnh và mục đích Phát triển: Sentient AGI(@SentientAGI), hợp tác với Princeton, UT Austin Công bố: COLM 2025, bài báo arXiv (2025.03) Mục đích: Kiểm tra giới hạn trí thông minh xã hội của LLM trong lập kế hoạch dài hạn, đàm phán dưới sự không chắc chắn, suy luận ý định, v.v. Các đặc điểm chính Cấu trúc: Tiêu chuẩn (nhiệm vụ và tiêu chí) + Arena (mô phỏng) Yếu tố điều chỉnh: Không gian hành động, độ phức tạp của trạng thái, số lượng tác nhân Chỉ số: Tỷ lệ thành công, tối ưu hóa kế hoạch, hiệu quả mẫu, kết quả điều chỉnh Miền đánh giá Lập kế hoạch PDDL - Lập kế hoạch dài hạn, theo dõi ràng buộc Trò chơi bàn cạnh tranh - Dự đoán đối kháng, phản ứng với độ sâu nhánh Trò chơi bài hợp tác - Quan sát một phần, điều phối nhóm Đàm phán đa tác nhân - Hình thành liên minh, phát hiện đánh lừa Hiệu suất LLM Điểm mạnh: Suy luận đơn giản, lập kế hoạch ngắn hạn Điểm yếu: Suy luận nhiều bước, xử lý trạng thái quy mô lớn, điều phối xã hội Khoảng cách hiệu suất so với con người và các giải pháp chuyên nghiệp Vậy thì...