Många artiklar om RL för förträning nyligen. Jag vet inte, uppenbarligen fungerar detta, men det känns så otäckt att vi bokstavligen provtar CoTs för tokens. Detta är det enda ställe där latenta resonemang är klart önskvärda. Icke desto mindre giltigt. Ännu ett genmäle till Sutton.