Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek de la Chine vient de lancer le seul modèle open-source suffisamment bon en mathématiques pour remporter l'or IMO, et un rapport incontournable !
L'idée clé s'inspire des choses dont Karpathy et d'autres ont parlé : aller au-delà du "RL de réponse finale" dans une boucle générateur–vérificateur–méta-vérificateur en langage pur.
– Un vérificateur est entraîné par RL pour évaluer les preuves.
– Un méta-vérificateur vérifie les critiques du vérificateur.
– Un générateur est entraîné par RL sur les signaux de récompense du vérificateur pour écrire et auto-vérifier de meilleures preuves.
Parce que tout se déroule en langage naturel (pas de Lean), cette recette DEVRAIT s'étendre à de nombreux domaines vérifiables : science, code, partout où la vérification est plus facile que la résolution !

Meilleurs
Classement
Favoris

