GRPO V2 リポジトリのリリース: nano-grpo-reasoning-gym 2つの大きな変更点(1)これは、PyTorch /非常に単純なPythonコードからGRPOトレーニングスタックを完全に実装しますが、vLLM、Ligerカーネル、およびその他の最適化を使用するように拡張され、モデルのトレーニングが大幅に高速化されます (2) これは Reasoning Gym リポジトリの上に構築されており、これらの推論環境でのトレーニングと評価のみを念頭に置いて構築されています 私は、物事がどのように機能するかについての良い直感を得るために、ゼロから何かを書くのが本当に好きですし、また、私の研究対象の多くは、トレーニングプロセスに奇妙な/小さなことをすることであり、より単純なコードで行う方がはるかに簡単だと感じています 私の以前のリポジトリは同じ意図で構築されましたが、最終的にはシンプルに保つために、実際には最適化がなかったため、変更は非常に簡単でしたが、より本格的なトレーニングを実行するには非常に遅く、非現実的でした 多くの人と同じように、私もモデルが複数の環境でどのように学習できるかに興味を持つようになりました - Reasoning Gym は、これを実験するための優れた標準化されたタスク セットを提供します。リポジトリを使用すると、さまざまな推論タスクを簡単に組み合わせたり、一部のタスクをトレーニングしたり、他のタスクを評価したりできます 私にとって、これはアイデアをテストするための高速かつシンプルなサンドボックスを持つことです。他の人にとっては、実際にgrpo / VLLM / Ligerがどのように機能するかを理解するため、またはあなた自身の実験の出発点として役立つかもしれません これが最初の実行です - leg_counting + family_relationships でのトレーニング、それら + coin_flip での評価 すべての評価は、問題ごとに5回の完了の確率的pass@1で行われますが、もちろんそれでもノイズが発生します。 足数性能+20%、家族関係+35%、コイン投げ(+8%?もしかしたら、ただのノイズでしょうか? 以下のGithubリンク