Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) hiện đã có! 🎉
Chúng tôi rất vui mừng thông báo rằng SGLang và Miles hiện hỗ trợ Rollout Routing Replay (R3) cho việc đào tạo học tăng cường ổn định trên các mô hình MoE!
Việc đào tạo các mô hình MoE với RL đã nổi tiếng là không ổn định, thường dẫn đến sự sụp đổ thảm khốc. Vấn đề? Sự không nhất quán trong định tuyến giữa các động cơ suy diễn và đào tạo. R3 khắc phục điều này bằng cách ghi lại các quyết định định tuyến của chuyên gia trong quá trình suy diễn và phát lại chúng trong quá trình đào tạo.
Tác động là rất lớn: giảm đáng kể sự khác biệt giữa đào tạo và suy diễn bằng cách tái sử dụng các quyết định định tuyến trong suy diễn, ngăn chặn sự sụp đổ trong đào tạo. R3 có hỗ trợ đào tạo phân tán đầy đủ với DataParallel Attention và tất cả các chiến lược song song, các mô hình được hỗ trợ bao gồm Qwen3-30B-A3B, deepseek_v2, v.v.
Hãy thử nghiệm và cho chúng tôi biết kết quả của bạn! 🚀

Hàng đầu
Thứ hạng
Yêu thích
