In letzter Zeit gibt es viele Arbeiten zu RL für das Pretraining. Ich weiß nicht, offensichtlich funktioniert das, aber es fühlt sich so unangenehm an, dass wir buchstäblich CoTs für Tokens sampeln. Dies ist der eine Ort, an dem latentes Denken eindeutig wünschenswert ist. Dennoch ist es gültig. Ein weiteres Gegenargument zu Sutton.