跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+1.81%
USELESS
+2.43%
IKUN
-1.36%
gib
-7.06%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+3.69%
ALON
+0.5%
LAUNCHCOIN
-4.15%
GOONC
+4.88%
KLED
+1.99%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.65%
Boopa
+1.98%
PORK
+0.2%
主頁
Brendan Hogan
Brendan Hogan
2025年10月18日
發布我的 grpo v2 倉庫:nano-grpo-reasoning-gym 兩個重大變化 (1) 這個完全實現了 grpo 訓練堆棧,僅使用 pytorch/非常簡單的 python 代碼 - 但現在擴展到使用 vLLM、liger 核心和其他優化,使得訓練模型的速度更快 (2) 它建立在 reasoning gym 倉庫之上 - 並且完全是為了在這些推理環境中進行訓練和評估而構建的 我真的很喜歡從零開始編寫東西,以便對事物的運作有良好的直覺,而且我的許多研究興趣涉及對訓練過程進行奇怪/小的改動,我發現對於更簡單的代碼來說,這樣做要容易得多 我之前的倉庫是以相同的意圖構建的 - 但為了保持最終的簡單性,我實際上沒有任何優化 - 所以雖然改變東西非常容易,但對於更認真的訓練運行來說,它非常慢且不切實際 像很多人一樣,我對模型如何在多個環境中學習變得更加感興趣 - reasoning gym 提供了一組標準化的任務來進行實驗。這個倉庫使得混合不同的推理任務、在某些任務上進行訓練、在其他任務上進行評估變得容易 對我來說,這是一個快速但簡單的沙盒來測試想法。對其他人來說,可能有助於理解 grpo/vllm/liger 在實踐中的運作,或者作為自己實驗的起點 這是第一次運行 - 在 leg_counting + family_relationships 上進行訓練,並在這些任務 + coin_flip 上進行評估 所有評估都是使用每個問題 5 次完成的概率 pass@1 進行的,當然仍然有噪音。 Leg count 提升了 +20% 的性能,family relationship 提升了 +35%,coin flip (+8%?也許只是噪音?) Github 連結如下
9.36K
103
熱門
排行
收藏