Les pénalités de complexité signifient que la stratégie optimale pour un jeu donné ne peut pas avoir une profondeur de récursion illimitée, à moins qu'elle ne soit soit optimisée pour les appels de queue, soit qu'elle produise des récompenses exponentielles. Chaque division récursive ajoute au moins un bit de complexité au modèle déroulé dans le temps d'une stratégie.
La plupart des théories des jeux que j'ai vues ne s'attaquent pas aux implications de cela. C'est une limite différente que le simple coût computationnel. Le coût de la computation peut être évalué localement, mais la complexité est une limite globale. Le contexte est important.
(Si vous connaissez la théorie des jeux en considérant le comportement déroulé dans le temps du joueur comme un modèle dont la précision et la complexité doivent être équilibrées, faites-le moi savoir ! J'ai cherché et je n'ai pas trouvé, mais cela ne signifie pas que j'ai utilisé les bons mots-clés...)
Cela dit que la stratégie optimale pour un joueur est déterminée par rapport au modèle de soi du joueur. Si vous vous modélisez en choisissant entre deux options sous une certaine condition, l'arbre déroulé se développe. Mais si vous l'arrondissez à zéro, alors l'arbre ne gagne pas une nouvelle branche.
En effet, il existe un "budget de décision". Ajouter des décisions plus détaillées ici signifie que vous devez prendre moins de décisions détaillées ailleurs. Pas moins de calcul, mais moins de décisions. Autrement dit, c'est le coût de complexité des options non prises.
L'équivalent de "calcul moins cher" ici est "meilleurs antécédents de fond". Combien de décisions prenez-vous est la divergence entre votre comportement basé sur l'état à ce moment, contre votre comportement si c'était (votre modèle de) le moment moyen d'expérience. De bonnes habitudes !
C'est en quelque sorte un miroir des connaissances communes... ce sont des actions communes. Les actions habituelles passées d'un agent contraignent ses actions optimales futures. Ce qui signifie, en un sens, que le fait d'agir généralement d'une certaine manière est un engagement crédible à continuer la stratégie implicite.
À moins, bien sûr, que le joueur n'agisse de manière trompeuse — payant un coût de complexité étonnamment élevé pour se modéliser comme agissant habituellement d'une autre manière, afin de maintenir des antécédents différents, car il s'attend à un profit en trahissant ceux qui ont été trompés plus tard.
Les stratégies optimales sont robustement optimales. Une stratégie optimale avec un rendement attendu plus élevé qui mène à la ruine n'est pas optimale. La robustesse repose sur la simplicité, qui est relative à la théorie de l'esprit de soi, des autres et du collectif "nous".
Ces règles concernant les décisions optimales en situation d'incertitude ne sont pas des suggestions, ce sont des lois de la même manière que les mises à jour bayésiennes. Ce que vous savez de vous-même est causal par rapport à votre stratégie optimale, et il y a un coût de complexité inévitable à la tromperie liant le modèle de soi à la réalité.
4,31K