Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek de China acaba de lanzar el único modelo de código abierto lo suficientemente bueno en matemáticas como para ganar el oro en IMO, ¡y un informe que debes leer!
La idea clave se basa en cosas de las que han hablado Karpathy y otros: ir más allá del "RL de respuesta final" hacia un bucle generador–verificador–meta-verificador en lenguaje puro.
– Un verificador es entrenado con RL para puntuar pruebas.
– Un meta-verificador revisa las críticas del verificador.
– Un generador es entrenado con RL en señales de recompensa del verificador para escribir y auto-verificar mejores pruebas.
Dado que todo vive en lenguaje natural (sin Lean), esta receta DEBERÍA extenderse a muchos dominios verificables: ciencia, código, ¡cualquier lugar donde verificar sea más fácil que resolver!

Parte superior
Clasificación
Favoritos

