Mange artikler om RL for fortrening nylig. Jeg vet ikke, åpenbart fungerer dette, men det føles så ekkelt at vi bokstavelig talt prøver CoTs for tokens. Dette er det eneste stedet hvor latent resonnement helt klart er ønskelig. Likevel, gyldig. Nok en motbevisning til Sutton.