As penalizações de complexidade significam que a estratégia ótima para um determinado jogo não pode ter profundidade de recursão ilimitada, a menos que seja otimizada para chamadas de cauda ou produza recompensas exponenciais. Cada divisão recursiva adiciona pelo menos um bit de complexidade ao modelo desenrolado no tempo da estratégia.
A maior parte da teoria dos jogos que vi não lida com as implicações disto. É um limite diferente do mero custo computacional. O custo da computação pode ser precificado localmente, mas a complexidade é um limite global. O contexto é importante.
(Se você conhece a teoria dos jogos considerando o comportamento desenrolado no tempo do jogador como um modelo cuja precisão e complexidade devem ser equilibradas, por favor, me avise! Eu procurei e não encontrei, mas isso não significa que usei as palavras-chave certas...)
Isto diz que a estratégia ótima para um jogador é determinada em relação ao modelo de si mesmo do jogador. Se você se modelar como escolhendo entre duas opções sob uma certa condição, a árvore desenrolada cresce. Mas se você arredondá-la para zero, então a árvore não ganha um novo ramo.
Na prática, existe um "orçamento de decisão". Adicionar decisões mais detalhadas aqui significa que você terá que tomar decisões menos detalhadas em outro lugar. Não menos computação, mas menos decisões. Ou, de outra forma, este é o custo de complexidade das opções não tomadas.
O equivalente a "computação mais barata" aqui é "melhores pressupostos de fundo". Quantas decisões você está tomando é a divergência entre seu comportamento com base no estado neste momento, em comparação com seu comportamento se fosse (seu modelo do) momento médio de experiência. Bons hábitos!
Isto é uma espécie de espelho do conhecimento comum... são ações comuns. As ações habituais passadas de um agente restringem as suas ações ótimas futuras. O que significa, de certa forma, que agir geralmente de uma certa maneira é um compromisso prévio credível para continuar a estratégia implícita.
A menos que, claro, o jogador esteja a agir de forma enganosa — pagando um custo de complexidade surpreendentemente alto para se modelar como alguém que normalmente age de outra maneira, a fim de manter diferentes pressupostos de fundo, porque espera lucro ao trair aqueles que foram enganados mais tarde.
Estratégias ótimas são robustamente ótimas. Uma estratégia ótima com maior retorno esperado que leva à ruína não é ótima. A robustez depende da simplicidade, que é relativa à teoria da mente tanto do eu, do outro, quanto do coletivo "nós".
Estas regras sobre decisões ótimas sob incerteza não são sugestões, são leis da mesma forma que as atualizações bayesianas. O que você sabe sobre si mesmo é causal sobre a sua estratégia ótima, e há um custo de complexidade inevitável para a enganação que liga o modelo de si mesmo à realidade.
4,31K