Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) je nyní aktivní! 🎉
S radostí oznamujeme, že SGLang a Miles nyní podporují Rollout Routing Replay (R3) pro stabilní trénink posilovaného učení na modelech MoE!
Trénování MoE modelů s RL bylo notoricky nestabilní, často vedoucí ke katastrofálnímu kolapsu. Problém? Směrovací nekonzistence mezi inferenčními a tréninkovými enginy. R3 to řeší tím, že během inference zaznamenává expertní rozhodnutí o směrování a přehrává je při tréninku.
Dopad je významný: dramaticky se snížil rozdíl mezi tréninkem a inferencí opětovným využitím rozhodnutí o směrování inferencí, čímž se zabránilo kolapsu tréninku. R3 má plnou distribuovanou trénovací podporu s DataParallel Attention a všemi strategiemi paralelismu, podporované modely zahrnují Qwen3-30B-A3B, deepseek_v2 atd.
Vyzkoušejte to a dejte nám vědět své výsledky! 🚀

Top
Hodnocení
Oblíbené
