Como você treina pequenos modelos de raciocínio de forma mais eficaz? Este é um problema que muitos desenvolvedores de IA enfrentam. O ajuste fino de RL, em geral, tende a se estabilizar, especialmente para modelos 1–2B. Acho que o DeepSearch oferece uma abordagem realmente limpa aqui. Ele pega a ideia do Monte Carlo Tree Search (MCTS) na inferência e a move para o loop de treinamento. Essa mudança desbloqueia uma melhor exploração e um aprendizado mais eficiente. Aqui estão minhas anotações do artigo: O loop envolve quatro ideias-chave: Pesquisando durante o treinamento: Em vez de fazer a pesquisa apenas no momento do teste, o MCTS é executado durante o treinamento de RL. Um seletor UCT local classifica irmãos, enquanto um marcador de fronteira global escolhe folhas promissoras em toda a árvore com base no valor pai, entropia e profundidade. Aprendendo com as vitórias e os erros confiantes: Se uma solução correta não for encontrada, o modelo ainda aprende supervisionando o caminho errado confiante (erros de menor entropia). Os caminhos corretos permanecem não negativos durante as atualizações, o que ajuda na atribuição de crédito no nível da etapa. Estabilizando RL com Tree-GRPO: Eles refinam objetivos no estilo PPO com valores q no nível do nó, normalização somente média e uma estratégia de recorte suave. Isso evita explosões de recompensa, mantendo os gradientes informativos. Mantendo-se eficiente: para reduzir o desperdício de computação, o DeepSearch filtra para um subconjunto difícil de problemas, armazena em cache as soluções assim que são verificadas e ignora a pesquisa completa quando uma resposta já é conhecida. Todas essas melhorias levam a resultados sólidos. O DeepSearch-1.5B atinge 62,95% nos benchmarks AIME/AMC, superando uma linha de base superior do Nemotron enquanto usa apenas ~330 horas de GPU. Em comparação, o treinamento normal de RL se estabiliza mais baixo, mesmo com 1.800+ horas de GPU. Papel: Acho que este artigo oferece uma receita prática para romper platôs em pequenos LMs de raciocínio: • Mova a pesquisa para o treinamento, não apenas para a inferência • Supervisionar os caminhos certos e errados • Use a priorização global para explorar de forma mais inteligente • Cache e filtro para manter a eficiência alta