Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penalizările de complexitate înseamnă că strategia optimă pentru un anumit joc nu poate avea o adâncime de recursivitate nelimitată decât dacă este optimizată sau produce recompense exponențiale. Fiecare diviziune recursivă adaugă cel puțin un pic de complexitate modelului desfășurat în timp al unei strategii.
Majoritatea teoriilor de jocuri pe care le-am văzut nu se confruntă cu implicațiile acestui lucru. Este o limită diferită de simplul cost computațional. Costul calculului poate fi evaluat local, dar complexitatea este o limită globală. Contextul contează.
(Dacă știți de teoria jocurilor luând în considerare comportamentul desfășurat în timp al jucătorului ca un model a cărui acuratețe și complexitate trebuie echilibrate, vă rog să-mi anunțați! Am căutat și nu am găsit, dar asta nu înseamnă că am folosit cuvintele cheie potrivite...)
Aceasta spune că strategia optimă pentru un jucător este determinată în raport cu modelul de sine al jucătorului. Dacă vă modelați ca alegând două opțiuni într-o anumită condiție, copacul derulat crește. Dar dacă îl rotunjești la zero, atunci copacul nu câștigă o ramură nouă.
De fapt, există un "buget de decizie". Adăugarea mai multor decizii fine aici înseamnă că trebuie să luați decizii mai puțin fine în altă parte. Nu mai puține calcule, ci mai puține decizii. Sau altfel spus, acesta este costul complexității opțiunilor neluate.
Echivalentul "calculului mai ieftin" aici este "antecedente de fundal mai bune". Câte decizii iei este divergența dintre comportamentul tău bazat pe starea din acest moment, față de comportamentul tău dacă a fost momentul mediu al experienței. Obiceiuri bune!
Aceasta este un fel de oglindă a cunoașterii comune... sunt acțiuni comune. Acțiunile trecute obișnuite ale unui agent își constrâng acțiunile optime viitoare. Ceea ce înseamnă, într-un anumit sens, doar de obicei să acționezi într-un fel este un angajament prealabil credibil de a continua strategia implicită.
Cu excepția cazului în care, desigur, jucătorul acționează înșelător – plătind un cost de complexitate surprinzător de mare pentru a se modela ca acționând de obicei într-un alt mod, pentru a menține un fundal diferit, pentru că se așteaptă la profit trădându-i pe cei înșelați mai târziu.
Strategiile optime sunt robuste optime. O strategie optimă cu un randament așteptat mai mare care duce la ruină nu este optimă. Robustețea se bazează pe simplitate, care este relativă la teoria minții atât a sinelui, cât și a celuilalt și a "noi" colectiv.
Aceste reguli despre deciziile optime în condiții de incertitudine nu sunt sugestii, sunt legi în același mod în care sunt actualizările bayesiene. Ceea ce știi despre tine este cauzal față de strategia ta optimă și există un cost inevitabil al complexității înșelăciunii care leagă modelul de sine de realitate.
4,31K
Limită superioară
Clasament
Favorite