lançamento do meu repositório grpo v2: nano-grpo-reasoning-gym duas grandes mudanças (1) este implementa inteiramente a pilha de treinamento grpo apenas com pytorch/código python muito simples - mas agora está estendido para usar vLLM, o núcleo liger e outras otimizações que tornam o treinamento de modelos muito mais rápido (2) é construído em cima do repositório reasoning gym - e é feito exclusivamente para treinar e avaliar nesses ambientes de raciocínio gosto muito de escrever coisas do zero para ter uma boa intuição de como as coisas funcionam, e também muitos dos meus interesses de pesquisa envolvem fazer coisas estranhas/pequenas no processo de treinamento, e acho muito mais fácil fazer isso em códigos mais simples meu repositório anterior foi construído com a mesma intenção - mas para mantê-lo extremamente simples, eu realmente não tinha otimizações - então, embora fosse extremamente fácil mudar as coisas, era muito lento e impraticável para execuções de treinamento mais sérias como muitas pessoas, fiquei mais interessado em como os modelos podem aprender em múltiplos ambientes - o reasoning gym fornece um bom conjunto padronizado de tarefas para experimentar isso. o repositório facilita a mistura de diferentes tarefas de raciocínio, treinar em algumas, avaliar em outras para mim, isso é sobre ter um sandbox rápido, mas simples, para testar ideias. para outros, pode ser útil entender como grpo/vllm/liger funcionam na prática, ou como um ponto de partida para seus próprios experimentos aqui está uma primeira execução - treinamento em contagem de pernas + relacionamentos familiares, avaliação nesses + lançamento de moeda Todas as avaliações são feitas com pass@1 probabilístico para 5 conclusões por problema, ainda barulhento, claro. A contagem de pernas obtém +20% de desempenho, relacionamento familiar + 35%, lançamento de moeda (+8%? Talvez apenas ruído?) Link do Github abaixo