Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como você treina pequenos modelos de raciocínio de forma mais eficaz?
Este é um problema que muitos desenvolvedores de IA enfrentam. O ajuste fino de RL, em geral, tende a se estabilizar, especialmente para modelos 1–2B.
Acho que o DeepSearch oferece uma abordagem realmente limpa aqui. Ele pega a ideia do Monte Carlo Tree Search (MCTS) na inferência e a move para o loop de treinamento. Essa mudança desbloqueia uma melhor exploração e um aprendizado mais eficiente.
Aqui estão minhas anotações do artigo:
O loop envolve quatro ideias-chave:
Pesquisando durante o treinamento: Em vez de fazer a pesquisa apenas no momento do teste, o MCTS é executado durante o treinamento de RL. Um seletor UCT local classifica irmãos, enquanto um marcador de fronteira global escolhe folhas promissoras em toda a árvore com base no valor pai, entropia e profundidade.
Aprendendo com as vitórias e os erros confiantes: Se uma solução correta não for encontrada, o modelo ainda aprende supervisionando o caminho errado confiante (erros de menor entropia). Os caminhos corretos permanecem não negativos durante as atualizações, o que ajuda na atribuição de crédito no nível da etapa.
Estabilizando RL com Tree-GRPO: Eles refinam objetivos no estilo PPO com valores q no nível do nó, normalização somente média e uma estratégia de recorte suave. Isso evita explosões de recompensa, mantendo os gradientes informativos.
Mantendo-se eficiente: para reduzir o desperdício de computação, o DeepSearch filtra para um subconjunto difícil de problemas, armazena em cache as soluções assim que são verificadas e ignora a pesquisa completa quando uma resposta já é conhecida.
Todas essas melhorias levam a resultados sólidos.
O DeepSearch-1.5B atinge 62,95% nos benchmarks AIME/AMC, superando uma linha de base superior do Nemotron enquanto usa apenas ~330 horas de GPU. Em comparação, o treinamento normal de RL se estabiliza mais baixo, mesmo com 1.800+ horas de GPU.
Papel:
Acho que este artigo oferece uma receita prática para romper platôs em pequenos LMs de raciocínio:
• Mova a pesquisa para o treinamento, não apenas para a inferência
• Supervisionar os caminhos certos e errados
• Use a priorização global para explorar de forma mais inteligente
• Cache e filtro para manter a eficiência alta

Melhores
Classificação
Favoritos