Nedan följer en djupdykning i varför självspel fungerar för nollsummespel (2p0s) för två spelare som Go/Poker/Starcraft men är så mycket svårare att använda i "verkliga" domäner. Tl; DR: Self Play konvergerar till Minimax i 2P0S-spel, och MiniMax är verkligen användbart i dessa spel. Varje ändligt 2p0s-spel har en minimax-jämvikt, vilket i princip är en oslagbar strategi i förväntan (förutsatt att spelarna byter sida). I stensax, till exempel, är minimax 1/3 på varje åtgärd. Är minimax vad vi vill ha? Inte nödvändigtvis. Om du spelar minimax i Rock Paper Scissors när de flesta motståndares strategier är "kasta alltid sten" så är du helt klart suboptimal, även om du inte förlorar i förväntan. Detta är särskilt viktigt i ett spel som poker eftersom att spela minimax innebär att du kanske inte tjänar så mycket pengar på svaga spelare som du skulle kunna om du utnyttjade dem maximalt. Men garantin "du kommer inte att förlora i förväntan" är riktigt skön att ha. Och i spel som Chess and Go är skillnaden mellan en minimax-strategi och en strategi som optimalt utnyttjar motståndarpopulationen försumbar. Av den anledningen anses minimax vanligtvis vara målet för ett nollsummespel för två spelare. Även i poker är den konventionella visdomen bland toppproffs att spela minimax (spelteori optimalt) och sedan bara avvika om du ser tydliga svagheter hos motståndaren. Ljudmässigt självspelande, även från början, kommer garanterat att konvergera till en minimax-jämvikt i ändliga 2p0s-spel. Det är fantastiskt! Genom att helt enkelt skala minne och beräkning, och utan mänskliga data, kan vi konvergera till en strategi som är oslagbar i förväntan. Hur är det med spel som inte är 2p0s? Tyvärr är det inte längre garanterat att rent självspel, utan mänskliga data, konvergerar till en användbar strategi. Detta kan tydligt ses i Ultimatum-spelet. Alice måste erbjuda Bob $0-100. Bob accepterar eller avvisar sedan. Om Bob går med på det delas pengarna upp enligt Alices förslag. Om Bob avvisar får båda $0. Jämviktsstrategin (specifikt perfekt jämvikt i underspelet) är att erbjuda 1 penny och för Bob att acceptera. Men i den verkliga världen är människor inte så rationella. Om Alice skulle prova den strategin med riktiga människor skulle hon få väldigt lite pengar. Självleken frigörs från det som vi som människor tycker är användbart. Många människor har föreslagit spel som "en LLM-lärare föreslår svåra matematiska problem, och en student LLM försöker lösa dem" för att uppnå självspelsträning, men detta stöter på liknande problem som Ultimatum-spelet där jämvikten är frikopplad från vad vi som människor tycker är användbart. Vad ska belöningen för läraren vara i ett sådant spel? Om det är 2p0s belönas läraren om eleven inte kunde lösa problemet, så läraren kommer att ställa omöjliga problem. Okej, vad händer om vi belönar det för att eleven har 50 % framgång? Då kunde läraren bara singla slant och fråga eleven om det landade krona. Eller så kan läraren be eleven att dekryptera ett meddelande via en omfattande nyckelsökning. Att forma belöningar för att uppnå avsett beteende blir en stor utmaning. Detta är inte ett problem i 2p0s-spel. Jag tror på att spela själv. Det ger en oändlig källa till utbildning, och det matchar kontinuerligt en agent med en lika skicklig kollega. Vi har också sett det fungera i några komplexa icke-2p0-inställningar som Diplomacy och Hanabi. Men att tillämpa det utanför 2p0s-spel är mycket svårare än det var för Go, Poker, Dota och Starcraft.