SGLang + Miles: إعادة تشغيل التوجيه (R3) أصبحت الآن متاحة! 🎉 نحن متحمسون للإعلان أن SGLang وMiles يدعمان الآن Rollout Routing Replay (R3) لتدريب التعلم المعزز المستقر على نماذج MoE! تدريب نماذج وزارة الطاقة باستخدام التعلم الواقعي كان معروفا بعدم الاستقرار، وغالبا ما يؤدي إلى انهيار كارثي. المشكلة؟ عدم اتساق التوجيه بين محركات الاستدلال والتدريب. يصلح R3 هذا من خلال تسجيل قرارات التوجيه الخبيرة أثناء الاستدلال وإعادة تشغيلها أثناء التدريب. التأثير كبير: تقليل كبير في التفاوت بين التدريب والاستدلال عن طريق إعادة استخدام قرارات توجيه الاستدلال، مما يمنع انهيار التدريب. تقدم R3 دعما كاملا للتدريب الموزع مع DataParallel Attention وجميع استراتيجيات التوازي، والنماذج المدعومة تشمل Qwen3-30B-A3B، deepseek_v2، وغيرها. جربها وأخبرنا بنتائجك! 🚀