Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Liberando meu repositório GRPO v2: nano-grpo-reasoning-gym
Duas grandes mudanças (1) Esta implementa inteiramente a pilha de treinamento GRPO apenas do código pytorch / Python muito simples - mas agora é estendida para usar vLLM, o kernel liger e outras otimizações que tornam muito mais rápido treinar modelos 
(2) é construído em cima do repositório reasoning gym - e é construído exclusivamente em mente para treinar e avaliar nesses ambientes de raciocínio
Eu realmente gosto de escrever coisas do zero para ter uma boa intuição de como as coisas funcionam, e também muitos dos meus interesses de pesquisa envolvem fazer coisas estranhas / pequenas no processo de treinamento, e acho muito mais fácil fazer em código mais simples
meu repositório anterior foi construído com a mesma intenção - mas para mantê-lo simples, eu realmente não tive nenhuma otimização - então, embora fosse extremamente fácil mudar as coisas, era muito lento e impraticável para execuções de treinamento mais sérias
como muitas pessoas, fiquei mais interessado em como os modelos podem aprender em vários ambientes - a academia de raciocínio fornece um bom conjunto padronizado de tarefas para experimentar isso. O repositório facilita a mistura de diferentes tarefas de raciocínio, o treinamento em algumas, a avaliação em outras
Para mim, trata-se de ter uma caixa de areia rápida, mas simples, para testar ideias. Para outros, pode ser útil entender como o Grpo / VLLM / Liger funciona na prática ou como ponto de partida para seus próprios experimentos
Aqui está uma primeira corrida - treinando no leg_counting + family_relationships, avaliação naqueles + coin_flip
Todas as avaliações são feitas com pass@1 probabilísticas para 5 conclusões por problema, ainda barulhento, é claro.
A contagem de pernas obtém +20% de desempenho, o relacionamento familiar + 35%, o cara ou coroa (+8%? Talvez apenas barulho?)
Link do Github abaixo




Melhores
Classificação
Favoritos

