¿Cómo se entrenan los modelos de razonamiento pequeños de manera más efectiva? Este es un problema con el que se encuentran muchos desarrolladores de IA. El ajuste fino de RL, en general, tiende a estabilizarse, especialmente para los modelos 1-2B. Creo que DeepSearch ofrece un enfoque realmente limpio aquí. Toma la idea de la búsqueda de árboles de Monte Carlo (MCTS) en la inferencia y la mueve al bucle de entrenamiento. Ese cambio desbloquea una mejor exploración y un aprendizaje más eficiente. Aquí están mis notas del artículo: El bucle involucra cuatro ideas clave: Búsqueda durante el entrenamiento: en lugar de solo realizar búsquedas en tiempo de prueba, MCTS se ejecuta durante el entrenamiento de RL. Un selector local de UCT clasifica a los hermanos, mientras que un anotador de frontera global recoge hojas prometedoras en todo el árbol en función del valor parental, la entropía y la profundidad. Aprender tanto de las victorias como de los errores seguros: Si no se encuentra una solución correcta, el modelo aún aprende supervisando el camino equivocado seguro (errores de entropía más bajos). Las rutas correctas no son negativas durante las actualizaciones, lo que ayuda con la asignación de créditos de nivel de paso. Estabilización de RL con Tree-GRPO: Refinan los objetivos de estilo PPO con valores q a nivel de nodo, normalización de solo media y una estrategia de recorte suave. Esto evita explosiones de recompensa mientras mantiene los gradientes informativos. Mantenerse eficiente: para reducir el desperdicio de cómputo, DeepSearch filtra un subconjunto duro de problemas, almacena en caché las soluciones una vez que se verifican y omite la búsqueda completa cuando ya se conoce una respuesta. Todas estas mejoras conducen a resultados sólidos. DeepSearch-1.5B alcanza el 62,95% en los puntos de referencia AIME / AMC, superando una línea de base superior de Nemotron mientras usa solo ~ 330 horas de GPU. En comparación, el entrenamiento normal de RL se estanca más bajo incluso con 1,800+ horas de GPU. Papel: Creo que este artículo ofrece una receta práctica para romper las mesetas en los LM de razonamiento pequeño: • Traslade la búsqueda al entrenamiento, no solo a la inferencia • Supervisar tanto los caminos correctos como los incorrectos • Utilice la priorización global para explorar de manera más inteligente • Caché y filtro para mantener alta la eficiencia