Veel artikelen over RL voor pretraining recentelijk. Ik weet het niet, duidelijk werkt dit, maar het voelt zo vervelend dat we letterlijk CoTs voor tokens aan het samplen zijn. Dit is de enige plek waar latente redenering duidelijk wenselijk is. Desondanks, geldig. Een andere weerlegging van Sutton.