Recentemente, muitos artigos sobre RL para pré-treinamento. Não sei, obviamente isso funciona, mas parece tão desagradável que estamos literalmente amostrando CoTs para tokens. Este é o único lugar onde o raciocínio latente é claramente desejável. No entanto, válido. Outra refutação a Sutton.