Recentemente ci sono molti articoli sul RL per il pretraining. Non lo so, ovviamente questo funziona, ma sembra così brutto che stiamo letteralmente campionando CoTs per i token. Questo è l'unico posto in cui il ragionamento latente è chiaramente desiderabile. Tuttavia, valido. Un'altra obiezione a Sutton.