Complexiteitsstraffen betekenen dat de optimale strategie voor een gegeven spel geen onbeperkte recursiediepte kan hebben, tenzij het ofwel tail-call geoptimaliseerd is, of exponentiële beloningen oplevert. Elke recursieve splitsing voegt minstens één bit complexiteit toe aan het tijd-ongerolde model van een strategie.
De meeste speltheorie die ik heb gezien, houdt geen rekening met de implicaties hiervan. Het is een andere grens dan louter de computationele kosten. De kosten van de berekening kunnen lokaal worden geprijsd, maar complexiteit is een globale grens. De context is belangrijk.
(Als je iets weet over speltheorie waarbij het tijdsontrol gedrag van de speler wordt beschouwd als een model waarvan de nauwkeurigheid en complexiteit in balans moeten zijn, laat het me dan weten! Ik heb gezocht en niets gevonden, maar dat betekent niet dat ik de juiste zoekwoorden heb gebruikt...)
Dit zegt dat de optimale strategie voor een speler wordt bepaald ten opzichte van het zelfmodel van de speler. Als je jezelf modelleert als iemand die kiest tussen twee opties onder een bepaalde voorwaarde, groeit de uitgerolde boom. Maar als je het afrondt op nul, dan krijgt de boom geen nieuwe tak.
In feite is er een "beslissingsbudget". Meer gedetailleerde beslissingen hier toevoegen betekent dat je minder gedetailleerde beslissingen ergens anders moet nemen. Niet minder rekenkracht, maar minder beslissingen. Of anders gezegd, dit is de complexiteitskost van niet genomen opties.
De equivalent van "goedkopere berekeningen" hier is "betere achtergrondprioren". Hoeveel beslissingen je neemt, is de divergentie tussen je gedrag op basis van de staat in dit moment, versus je gedrag als het (jouw model van) het gemiddelde moment van ervaring was. Goede gewoonten!
Dit is een soort spiegel van algemene kennis... het zijn algemene acties. De gewoontes uit het verleden van een agent beperken zijn toekomstige optimale acties. Wat betekent dat, in zekere zin, het simpelweg meestal op een bepaalde manier handelen een geloofwaardige voorafgaande toezegging is om de impliciete strategie voort te zetten.
Tenzij de speler natuurlijk bedrieglijk handelt — een verrassend hoge complexiteitskost betaalt om zichzelf te modelleren als meestal op een andere manier handelend, om een andere achtergrondprior te behouden, omdat ze winst verwachten door later degenen die bedrogen zijn te verraden.
Optimale strategieën zijn robuust optimaal. Een optimale strategie met een hoger verwacht rendement die leidt tot ondergang is niet optimaal. Robuustheid is afhankelijk van eenvoud, wat relatief is ten opzichte van de theorie van de geest van zowel het zelf, de ander als het collectieve "wij".
Deze regels over optimale beslissingen onder onzekerheid zijn geen suggesties, het zijn wetten op dezelfde manier als Bayesian updates dat zijn. Wat je van jezelf weet is causaal voor je optimale strategie, en er is een onvermijdelijke complexiteitskost aan bedrog die het zelfmodel aan de realiteit bindt.
4,3K