一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Brendan Hogan

發布我的 grpo v2 倉庫：nano-grpo-reasoning-gym 兩個重大變化 (1) 這個完全實現了 grpo 訓練堆棧，僅使用 pytorch/非常簡單的 python 代碼 - 但現在擴展到使用 vLLM、liger 核心和其他優化，使得訓練模型的速度更快 (2) 它建立在 reasoning gym 倉庫之上 - 並且完全是為了在這些推理環境中進行訓練和評估而構建的我真的很喜歡從零開始編寫東西，以便對事物的運作有良好的直覺，而且我的許多研究興趣涉及對訓練過程進行奇怪/小的改動，我發現對於更簡單的代碼來說，這樣做要容易得多我之前的倉庫是以相同的意圖構建的 - 但為了保持最終的簡單性，我實際上沒有任何優化 - 所以雖然改變東西非常容易，但對於更認真的訓練運行來說，它非常慢且不切實際像很多人一樣，我對模型如何在多個環境中學習變得更加感興趣 - reasoning gym 提供了一組標準化的任務來進行實驗。這個倉庫使得混合不同的推理任務、在某些任務上進行訓練、在其他任務上進行評估變得容易對我來說，這是一個快速但簡單的沙盒來測試想法。對其他人來說，可能有助於理解 grpo/vllm/liger 在實踐中的運作，或者作為自己實驗的起點這是第一次運行 - 在 leg_counting + family_relationships 上進行訓練，並在這些任務 + coin_flip 上進行評估所有評估都是使用每個問題 5 次完成的概率 pass@1 進行的，當然仍然有噪音。 Leg count 提升了 +20% 的性能，family relationship 提升了 +35%，coin flip (+8%？也許只是噪音？) Github 連結如下