Multe lucrări despre RL pentru pretraining recent. Nu știu, evident că funcționează, dar se simte atât de urât încât literalmente eșantionăm CoT-uri pentru jetoane. Acesta este singurul loc în care raționamentul latent este în mod clar de dorit. Cu toate acestea, valabil. O altă respingere la adresa lui Sutton.