[Оновлення щодо @SentientAGI SPIN-Bench] Я резюмував, що таке SPIN-Bench. Огляд SPIN-Bench SPIN-Bench – це еталон, який оцінює здібності до стратегічного планування, взаємодії та переговорів великих мовних моделей (LLM), вимірюючи їх соціальний інтелект у мультиагентному середовищі. Передумови та призначення Розробник: Sentient AGI (@SentientAGI), Прінстон, Техаський університет в Остіні Презентація: 2025 COLM, arXiv Paper (2025.03) Мета: Вивчити обмеження соціального інтелекту LLM, включаючи довгострокове планування, переговори в умовах невизначеності та навмисне міркування. Ключові особливості Склад: Бенчмарк (виклики та критерії) + Арена (симуляція) Модератори: Простір дій, складність стану, кількість агентів Показники: успішність, оптимальність планування, ефективність вибірки, результати коригування Домени оцінювання Планування PDDL - довгострокове планування, відстеження обмежень Змагальні настільні ігри - змагальні прогнози, щоквартальні відповіді Кооперативні карткові ігри - часткова спостережливість, координація команди Переговори з кількома агентами - формування альянсів, виявлення блефу Продуктивність LLM Сильні сторони: Прості міркування, короткострокове планування Слабкі сторони: Багатоступінчасте обґрунтування, широкомасштабне управління державою, соціальна координація Розрив у продуктивності між людьми та професійними вирішувачами То ...