🚨DeepSeek della Cina ha appena rilasciato l'unico modello open-source abbastanza bravo in matematica da vincere l'IMO Gold, e un rapporto imperdibile! L'idea chiave trae spunto da ciò di cui hanno parlato Karpathy e altri: andare oltre il “final answer RL” in un ciclo generatore–verificatore–meta-verificatore in linguaggio puro. – Un verificatore è addestrato con RL per valutare le prove. – Un meta-verificatore controlla le critiche del verificatore. – Un generatore è addestrato con RL sui segnali di ricompensa del verificatore per scrivere e auto-controllare prove migliori. Poiché tutto vive nel linguaggio naturale (niente Lean), questa ricetta DOVREBBE estendersi a molti domini verificabili: scienza, codice, ovunque dove controllare è più facile che risolvere!