Muchos artículos sobre RL para preentrenamiento recientemente. No sé, obviamente esto funciona, pero se siente tan desagradable que literalmente estamos probando CoTs para tokens. Este es el único lugar donde el razonamiento latente es claramente deseable. Sin embargo, válido. Otra refutación a Sutton.