выпускаю свой репозиторий grpo v2: nano-grpo-reasoning-gym две большие изменения (1) этот полностью реализует стек обучения grpo только на pytorch/очень простом python коде - но теперь расширен для использования vLLM, ядра liger и других оптимизаций, которые значительно ускоряют обучение моделей (2) он построен на основе репозитория reasoning gym - и создан исключительно для обучения и оценки в этих средах рассуждения мне действительно нравится писать вещи с нуля, чтобы получить хорошее представление о том, как все работает, и также многие мои исследовательские интересы связаны с тем, чтобы делать странные/маленькие вещи в процессе обучения, и мне гораздо проще делать это на более простом коде мой предыдущий репозиторий был создан с той же целью - но чтобы сохранить его в конечном итоге простым, у меня не было никаких оптимизаций - так что, хотя было очень легко менять вещи, это было очень медленно и непрактично для более серьезных тренировочных запусков как и многие люди, я стал больше интересоваться тем, как модели могут учиться в нескольких средах - reasoning gym предоставляет хороший стандартизированный набор задач для экспериментов с этим. репозиторий упрощает смешивание различных задач рассуждения, обучение на некоторых, оценку на других для меня это о том, чтобы иметь быстрый, но простой песочницу для тестирования идей. для других это может быть полезно для понимания того, как grpo/vllm/liger работают на практике, или как отправная точка для ваших собственных экспериментов вот первый запуск - обучение на leg_counting + family_relationships, оценка на этих + coin_flip Все оценки проводятся с вероятностным pass@1 для 5 завершений на проблему, все еще шумно, конечно. Leg count получает +20% производительности, family relationship + 35%, coin flip (+8%? Может быть, просто шум?) Ссылка на Github ниже