Muitos artigos sobre RL para pré-treinamento recentemente. Eu não sei, obviamente isso funciona, mas parece tão desagradável que estamos literalmente sampleando CoTs para tokens. Este é o único lugar onde o raciocínio latente é claramente desejável. No entanto, válido. Outra refutação a Sutton.