Recientemente hay muchos documentos sobre RL para preentrenamiento. No sé, obviamente esto funciona, pero se siente tan desagradable que literalmente estamos muestreando CoTs para tokens. Este es el único lugar donde el razonamiento latente es claramente deseable. Sin embargo, es válido. Otro argumento en contra de Sutton.