Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
publication de mon dépôt grpo v2 : nano-grpo-reasoning-gym
deux grands changements (1) celui-ci implémente entièrement la pile d'entraînement grpo à partir de pytorch/code python très simple - mais est maintenant étendu pour utiliser vLLM, le noyau liger et d'autres optimisations qui rendent l'entraînement des modèles beaucoup plus rapide
(2) il est construit sur le dépôt reasoning gym - et est conçu uniquement pour entraîner et évaluer sur ces environnements de raisonnement
j'aime vraiment écrire des choses à partir de zéro pour avoir une bonne intuition sur le fonctionnement des choses, et aussi beaucoup de mes intérêts de recherche impliquent de faire des choses étranges/petites au processus d'entraînement, et je trouve cela beaucoup plus facile à faire sur un code plus simple
mon précédent dépôt a été construit avec la même intention - mais pour le garder finalement simple, je n'avais pas vraiment d'optimisations - donc bien qu'il était extrêmement facile de modifier les choses, il était très lent et impraticable pour des sessions d'entraînement plus sérieuses
comme beaucoup de gens, je suis devenu plus intéressé par la façon dont les modèles peuvent apprendre dans plusieurs environnements - le reasoning gym fournit un ensemble standardisé de tâches pour expérimenter cela. le dépôt facilite le mélange de différentes tâches de raisonnement, l'entraînement sur certaines, l'évaluation sur d'autres
pour moi, il s'agit d'avoir un bac à sable rapide mais simple pour tester des idées. pour d'autres, cela pourrait être utile pour comprendre comment grpo/vllm/liger fonctionnent en pratique, ou comme point de départ pour vos propres expériences
voici un premier essai - entraînement sur le comptage de jambes + relations familiales, évaluation sur ceux-ci + tirage au sort
Toutes les évaluations sont effectuées avec un pass@1 probabiliste pour 5 complétions par problème, encore bruyantes bien sûr.
Le comptage de jambes obtient +20% de performance, la relation familiale + 35%, tirage au sort (+8% ? Peut-être juste du bruit ?)
Lien Github ci-dessous




Meilleurs
Classement
Favoris

