發布我的 grpo v2 倉庫:nano-grpo-reasoning-gym 兩個重大變化 (1) 這個完全實現了 grpo 訓練堆棧,僅使用 pytorch/非常簡單的 python 代碼 - 但現在擴展到使用 vLLM、liger 核心和其他優化,使得訓練模型的速度更快 (2) 它建立在 reasoning gym 倉庫之上 - 並且完全是為了在這些推理環境中進行訓練和評估而構建的 我真的很喜歡從零開始編寫東西,以便對事物的運作有良好的直覺,而且我的許多研究興趣涉及對訓練過程進行奇怪/小的改動,我發現對於更簡單的代碼來說,這樣做要容易得多 我之前的倉庫是以相同的意圖構建的 - 但為了保持最終的簡單性,我實際上沒有任何優化 - 所以雖然改變東西非常容易,但對於更認真的訓練運行來說,它非常慢且不切實際 像很多人一樣,我對模型如何在多個環境中學習變得更加感興趣 - reasoning gym 提供了一組標準化的任務來進行實驗。這個倉庫使得混合不同的推理任務、在某些任務上進行訓練、在其他任務上進行評估變得容易 對我來說,這是一個快速但簡單的沙盒來測試想法。對其他人來說,可能有助於理解 grpo/vllm/liger 在實踐中的運作,或者作為自己實驗的起點 這是第一次運行 - 在 leg_counting + family_relationships 上進行訓練,並在這些任務 + coin_flip 上進行評估 所有評估都是使用每個問題 5 次完成的概率 pass@1 進行的,當然仍然有噪音。 Leg count 提升了 +20% 的性能,family relationship 提升了 +35%,coin flip (+8%?也許只是噪音?) Github 連結如下