V poslední době mnoho článků o RL pro předtrénink. Nevím, samozřejmě to funguje, ale připadá mi to tak ošklivé, že doslova vzorkujeme CoT pro tokeny. To je jediné místo, kde je latentní uvažování zjevně žádoucí. Nicméně platné. Další vyvrácení Suttona.