Liberando meu repositório GRPO v2: nano-grpo-reasoning-gym Duas grandes mudanças (1) Esta implementa inteiramente a pilha de treinamento GRPO apenas do código pytorch / Python muito simples - mas agora é estendida para usar vLLM, o kernel liger e outras otimizações que tornam muito mais rápido treinar modelos (2) é construído em cima do repositório reasoning gym - e é construído exclusivamente em mente para treinar e avaliar nesses ambientes de raciocínio Eu realmente gosto de escrever coisas do zero para ter uma boa intuição de como as coisas funcionam, e também muitos dos meus interesses de pesquisa envolvem fazer coisas estranhas / pequenas no processo de treinamento, e acho muito mais fácil fazer em código mais simples meu repositório anterior foi construído com a mesma intenção - mas para mantê-lo simples, eu realmente não tive nenhuma otimização - então, embora fosse extremamente fácil mudar as coisas, era muito lento e impraticável para execuções de treinamento mais sérias como muitas pessoas, fiquei mais interessado em como os modelos podem aprender em vários ambientes - a academia de raciocínio fornece um bom conjunto padronizado de tarefas para experimentar isso. O repositório facilita a mistura de diferentes tarefas de raciocínio, o treinamento em algumas, a avaliação em outras Para mim, trata-se de ter uma caixa de areia rápida, mas simples, para testar ideias. Para outros, pode ser útil entender como o Grpo / VLLM / Liger funciona na prática ou como ponto de partida para seus próprios experimentos Aqui está uma primeira corrida - treinando no leg_counting + family_relationships, avaliação naqueles + coin_flip Todas as avaliações são feitas com pass@1 probabilísticas para 5 conclusões por problema, ainda barulhento, é claro. A contagem de pernas obtém +20% de desempenho, o relacionamento familiar + 35%, o cara ou coroa (+8%? Talvez apenas barulho?) Link do Github abaixo