ورقة ضخمة من NVIDIA. تدريب نماذج التفكير العامة باستخدام التعلم بالواقع أمر معقد. النطاقات المختلفة لها طول استجابة وأوقات تحقق مختلفة تماما. الرياضيات تستخدم التحقق الرمزي السريع. يتطلب الكود التحقق البطيء القائم على التنفيذ. التوافق يحتاج إلى درجات نماذج المكافأة. دمج كل هذه التعليمات المتنوعة معا يجعل البنية التحتية معقدة، ويبطئ التدريب، ويجعل ضبط المعاملات الفائقة صعبا. يقدم هذا البحث الجديد سلسلة Cascade RL، وهو إطار يدرب النماذج بشكل متسلسل عبر المجالات بدلا من خلط كل شيء معا. أولا RLHF للمحاذاة، ثم RL تتبع التعليمات، ثم RL رياضي، ثم RL الكود، ثم RL هندسة البرمجيات. هذا النهج التسلسلي مقاوم للنسيان الكارثي. في التعلم الواقعي، يولد النموذج تجربته الخاصة، لذا تبقى السلوكيات القديمة إذا بقيت ذات صلة بالمكافأة. على عكس التعلم المراقب، حيث تختفي البيانات السابقة، فإن التعلم المعزز يحسن المكافأة التراكمية بدلا من مطابقة الأهداف الدقيقة. RLHF، كخطوة مسبقة، يعزز فعليا قدرة التفكير على التفكير إلى ما هو أبعد من مجرد تحسين التفضيلات من خلال تقليل الإلهام والتكرار. نادرا ما تضعف مراحل التعلم المعزز الخاصة بالمجالات اللاحقة الأداء المبكر وقد تحسنه. إليكم النتائج: يتفوق نموذج 14B على معلم SFT الخاص به، DeepSeek-R1-0528 (671B)، على LiveCodeBench v5/v6/Pro. يحقق Nemotron-Cascade-8B نسبة 71.1٪ على LiveCodeBench v6، وهو ما يقارن ب DeepSeek-R1-0528 بنسبة 73.3٪ رغم أنه أصغر ب 84 مرة. حقق طراز 14B أداء في الميدالية الفضية في IOI 2025. كما تظهر أن نماذج التفكير الموحد يمكن أن تعمل بفعالية في أوضاع التفكير وعدم التفكير، مما يغلق الفجوة مع نماذج التفكير المخصصة مع الحفاظ على كل شيء في نموذج واحد. الورقة: تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا: