Banyak makalah tentang RL untuk prapelatihan baru-baru ini. Saya tidak tahu, jelas ini berhasil, tetapi rasanya sangat buruk sehingga kami benar-benar mengambil sampel CoT untuk token. Ini adalah satu-satunya tempat di mana penalaran laten jelas diinginkan. Namun demikian, valid. Bantahan lain untuk Sutton.