Come si addestrano i modelli di ragionamento piccoli in modo più efficace? Questo è un problema con cui molti sviluppatori di AI si scontrano. Il fine-tuning RL, in generale, tende a stabilizzarsi, specialmente per modelli da 1 a 2 miliardi. Penso che DeepSearch offra un approccio davvero pulito qui. Prende l'idea della Ricerca ad Albero di Monte Carlo (MCTS) durante l'inferenza e la sposta nel ciclo di addestramento. Questo cambiamento sblocca una migliore esplorazione e un apprendimento più efficiente. Ecco le mie note dal documento: Il ciclo coinvolge quattro idee chiave: Ricerca Durante l'Addestramento: Invece di fare ricerca solo al momento del test, MCTS viene eseguito durante l'addestramento RL. Un selettore UCT locale classifica i fratelli, mentre un valutatore globale della frontiera sceglie foglie promettenti in tutto l'albero basandosi sul valore del genitore, sull'entropia e sulla profondità. Apprendere da Entrambi i Successi e gli Errori Sicuri: Se non viene trovata una soluzione corretta, il modello impara comunque supervisionando il percorso errato sicuro (errori a bassa entropia). I percorsi corretti rimangono non negativi durante gli aggiornamenti, il che aiuta con l'assegnazione del credito a livello di passo. Stabilizzare il RL con Tree-GRPO: Raffinano gli obiettivi in stile PPO con valori q a livello di nodo, normalizzazione solo media e una strategia di clipping morbido. Questo evita esplosioni di ricompensa mantenendo informativi i gradienti. Rimanere Efficiente: Per ridurre il calcolo sprecato, DeepSearch filtra a un sottoinsieme rigoroso di problemi, memorizza le soluzioni una volta verificate e salta la ricerca completa quando una risposta è già nota. Tutti questi miglioramenti portano a risultati forti. DeepSearch-1.5B raggiunge il 62,95% nei benchmark AIME/AMC, superando un top baseline di Nemotron utilizzando solo ~330 ore GPU. In confronto, il normale addestramento RL si stabilizza più in basso anche con oltre 1.800 ore GPU. Documento: Penso che questo documento offra una ricetta pratica per superare i plateau nei LMs di ragionamento piccoli: • Sposta la ricerca nell'addestramento, non solo nell'inferenza • Supervisiona sia i percorsi giusti che quelli sbagliati • Usa la priorità globale per esplorare in modo più intelligente • Memorizza e filtra per mantenere alta l'efficienza