العديد من الأوراق حول RL للتدريب المسبق مؤخرا. لا أعرف ، من الواضح أن هذا يعمل ، لكن الأمر يبدو سيئا للغاية لدرجة أننا نأخذ عينات حرفيا من CoTs للحصول على الرموز المميزة. هذا هو المكان الوحيد الذي يكون فيه التفكير الكامن مرغوبا فيه. ومع ذلك ، صالح. دحض آخر لساتون.