De nombreux articles sur l'apprentissage par renforcement pour le pré-entraînement récemment. Je ne sais pas, évidemment cela fonctionne, mais cela semble si désagréable que nous échantillonnons littéralement des CoTs pour des tokens. C'est le seul endroit où le raisonnement latent est clairement souhaitable. Néanmoins, valide. Un autre contre-argument à Sutton.