SGLang + Miles: Rollout Routing Replay (R3) on nyt julkaistu! 🎉 Olemme innoissamme voidessamme ilmoittaa, että SGLang ja Miles tukevat nyt Rollout Routing Replay (R3) -ohjelmaa vakaan vahvistusoppimisen koulutukseen MoE-malleissa! MoE-mallien kouluttaminen RL:llä on ollut tunnetusti epävakaata, usein johtaen katastrofaaliseen romahdukseen. Ongelma? Reititysepäjohdonmukaisuus päättely- ja koulutusmoottoreiden välillä. R3 korjaa tämän tallentamalla asiantuntevat reitityspäätökset päättelyssä ja toistamalla ne harjoituksissa. Vaikutus on merkittävä: koulutuksen ja päättelyn eroa vähennettiin dramaattisesti käyttämällä päättelyreitityspäätöksiä uudelleen, mikä estää koulutuksen romahtamisen. R3:lla on täysi hajautettu koulutustuki DataParallel Attentionilla ja kaikilla rinnakkaisstrategioilla, tuettuihin malleihin kuuluvat Qwen3-30B-A3B, deepseek_v2 jne. Kokeile ja kerro meille tuloksesi! 🚀