🚨DeepSeek de la Chine vient de lancer le seul modèle open-source suffisamment bon en mathématiques pour remporter l'or IMO, et un rapport incontournable ! L'idée clé s'inspire des choses dont Karpathy et d'autres ont parlé : aller au-delà du "RL de réponse finale" dans une boucle générateur–vérificateur–méta-vérificateur en langage pur. – Un vérificateur est entraîné par RL pour évaluer les preuves. – Un méta-vérificateur vérifie les critiques du vérificateur. – Un générateur est entraîné par RL sur les signaux de récompense du vérificateur pour écrire et auto-vérifier de meilleures preuves. Parce que tout se déroule en langage naturel (pas de Lean), cette recette DEVRAIT s'étendre à de nombreux domaines vérifiables : science, code, partout où la vérification est plus facile que la résolution !