Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
выпускаю свой репозиторий grpo v2: nano-grpo-reasoning-gym
две большие изменения (1) этот полностью реализует стек обучения grpo только на pytorch/очень простом python коде - но теперь расширен для использования vLLM, ядра liger и других оптимизаций, которые значительно ускоряют обучение моделей
(2) он построен на основе репозитория reasoning gym - и создан исключительно для обучения и оценки в этих средах рассуждения
мне действительно нравится писать вещи с нуля, чтобы получить хорошее представление о том, как все работает, и также многие мои исследовательские интересы связаны с тем, чтобы делать странные/маленькие вещи в процессе обучения, и мне гораздо проще делать это на более простом коде
мой предыдущий репозиторий был создан с той же целью - но чтобы сохранить его в конечном итоге простым, у меня не было никаких оптимизаций - так что, хотя было очень легко менять вещи, это было очень медленно и непрактично для более серьезных тренировочных запусков
как и многие люди, я стал больше интересоваться тем, как модели могут учиться в нескольких средах - reasoning gym предоставляет хороший стандартизированный набор задач для экспериментов с этим. репозиторий упрощает смешивание различных задач рассуждения, обучение на некоторых, оценку на других
для меня это о том, чтобы иметь быстрый, но простой песочницу для тестирования идей. для других это может быть полезно для понимания того, как grpo/vllm/liger работают на практике, или как отправная точка для ваших собственных экспериментов
вот первый запуск - обучение на leg_counting + family_relationships, оценка на этих + coin_flip
Все оценки проводятся с вероятностным pass@1 для 5 завершений на проблему, все еще шумно, конечно.
Leg count получает +20% производительности, family relationship + 35%, coin flip (+8%? Может быть, просто шум?)
Ссылка на Github ниже




Топ
Рейтинг
Избранное

