熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
從 vllm v0 遷移到 v1 導致我們的異步強化學習訓練崩潰!閱讀我們是如何解決這個問題的
我們最近從 v0 遷移到 v1,作為對 prime-rl 進行更大規模重構的一部分,以使其更易於使用、更高效,並自然支持異步。我們在許多小規模運行中確認了正確的訓練動態,但在嘗試重現一個在重構之前沒有問題的大規模運行時遇到了瓶頸。具體來說,在我們的 INTELLECT-2 數學數據集中,使用 8k 上下文和兩步離線延遲訓練 DeepSeek-R1-Distill-Qwen-1.5B 解決單輪數學問題時,大約在訓練進行 400 步時會致命崩潰。

40.33K
熱門
排行
收藏