[@SentientAGI Atualização sobre o SPIN-Bench] Fiz um resumo sobre o que é o SPIN-Bench. Visão Geral do SPIN-Bench O SPIN-Bench é um benchmark que avalia a capacidade de planejamento estratégico, interação e negociação de grandes modelos de linguagem (LLM), medindo a inteligência social em ambientes multiagente. Contexto e Objetivo Desenvolvimento: Sentient AGI(@SentientAGI), Princeton, UT Austin em colaboração Apresentação: COLM 2025, artigo arXiv (2025.03) Objetivo: Verificar os limites da inteligência social dos LLM em planejamento de longo prazo, negociação sob incerteza, inferência de intenções, etc. Principais Características Composição: Benchmark (tarefas e critérios) + Arena (simulação) Elementos de ajuste: Espaço de ação, complexidade do estado, número de agentes Métricas: Taxa de sucesso, otimalidade do planejamento, eficiência de amostragem, resultados de coordenação Domínios de Avaliação Planejamento PDDL - Planejamento de longo prazo, rastreamento de restrições Jogos de Tabuleiro Competitivos - Previsão adversarial, resposta a desvios Jogos de Cartas Cooperativos - Observabilidade parcial, coordenação em equipe Negociação Multiagente - Formação de alianças, detecção de blefes Desempenho do LLM Forças: Inferência simples, planejamento de curto prazo Fraquezas: Inferência de múltiplos passos, processamento de estados em larga escala, coordenação social Diferença de desempenho em comparação com humanos e solucionadores especializados Então, qual é o papel da Sentient AGI?...