Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek de China acaba de publicar el único modelo de código abierto lo suficientemente bueno en matemáticas como para ganar en mi opinión el oro, ¡y un informe imprescindible!
La idea clave se basa en cosas de las que Karpathy y otros han hablado: ir más allá de la "respuesta final RL" hacia un bucle generador–verificador–meta-verificador en lenguaje puro.
– Un verificador está entrenado en RL para puntuar demostraciones.
– Un meta-verificador revisa las críticas del verificador.
– Un generador está entrenado en RL en señales de recompensa de verificadores para escribir y auto-verificar mejores demostraciones.
Como todo vive en el lenguaje natural (sin Lean), esta receta DEBERÍA extenderse a muchos dominios verificables: ciencia, código, ¡cualquier lugar donde comprobar sea más fácil que resolver!

Populares
Ranking
Favoritas

