跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+19.3%
USELESS
+12.3%
IKUN
+44.71%
gib
+27.77%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+30.82%
ALON
-0.14%
LAUNCHCOIN
+1.68%
GOONC
+1.09%
KLED
-10.75%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.92%
Boopa
-4.6%
PORK
+5.8%
主頁
samsja
@PrimeIntellect 的領先研究
查看原文
samsja
1月1日 19:17
我們在非同步強化學習訓練穩定性方面走了很長一段路 不久前,天真的 grpo 會因為不匹配而在 torch compile 時崩潰。但現在我們可以在政策上走得很遠,以處理代理強化學習 在 prime-rl 損失計算中有很多非常重要的細節,啟用我們最新的穩定性改進在我們的一些運行中會對 kl 不匹配產生重大影響
532
samsja
2025年12月31日
我們剛剛在 prime-rl 中合併了政策蒸餾。
473
熱門
排行
收藏