SGLang + Miles: Rollout Routing Replay (R3) je nyní aktivní! 🎉 S radostí oznamujeme, že SGLang a Miles nyní podporují Rollout Routing Replay (R3) pro stabilní trénink posilovaného učení na modelech MoE! Trénování MoE modelů s RL bylo notoricky nestabilní, často vedoucí ke katastrofálnímu kolapsu. Problém? Směrovací nekonzistence mezi inferenčními a tréninkovými enginy. R3 to řeší tím, že během inference zaznamenává expertní rozhodnutí o směrování a přehrává je při tréninku. Dopad je významný: dramaticky se snížil rozdíl mezi tréninkem a inferencí opětovným využitím rozhodnutí o směrování inferencí, čímž se zabránilo kolapsu tréninku. R3 má plnou distribuovanou trénovací podporu s DataParallel Attention a všemi strategiemi paralelismu, podporované modely zahrnují Qwen3-30B-A3B, deepseek_v2 atd. Vyzkoušejte to a dejte nám vědět své výsledky! 🚀