DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

publication de mon dépôt grpo v2 : nano-grpo-reasoning-gym deux grands changements (1) celui-ci implémente entièrement la pile d'entraînement grpo à partir de pytorch/code python très simple - mais est maintenant étendu pour utiliser vLLM, le noyau liger et d'autres optimisations qui rendent l'entraînement des modèles beaucoup plus rapide (2) il est construit sur le dépôt reasoning gym - et est conçu uniquement pour entraîner et évaluer sur ces environnements de raisonnement j'aime vraiment écrire des choses à partir de zéro pour avoir une bonne intuition sur le fonctionnement des choses, et aussi beaucoup de mes intérêts de recherche impliquent de faire des choses étranges/petites au processus d'entraînement, et je trouve cela beaucoup plus facile à faire sur un code plus simple mon précédent dépôt a été construit avec la même intention - mais pour le garder finalement simple, je n'avais pas vraiment d'optimisations - donc bien qu'il était extrêmement facile de modifier les choses, il était très lent et impraticable pour des sessions d'entraînement plus sérieuses comme beaucoup de gens, je suis devenu plus intéressé par la façon dont les modèles peuvent apprendre dans plusieurs environnements - le reasoning gym fournit un ensemble standardisé de tâches pour expérimenter cela. le dépôt facilite le mélange de différentes tâches de raisonnement, l'entraînement sur certaines, l'évaluation sur d'autres pour moi, il s'agit d'avoir un bac à sable rapide mais simple pour tester des idées. pour d'autres, cela pourrait être utile pour comprendre comment grpo/vllm/liger fonctionnent en pratique, ou comme point de départ pour vos propres expériences voici un premier essai - entraînement sur le comptage de jambes + relations familiales, évaluation sur ceux-ci + tirage au sort Toutes les évaluations sont effectuées avec un pass@1 probabiliste pour 5 complétions par problème, encore bruyantes bien sûr. Le comptage de jambes obtient +20% de performance, la relation familiale + 35%, tirage au sort (+8% ? Peut-être juste du bruit ?) Lien Github ci-dessous

Meilleurs

Classement

Favoris