Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

🚨DeepSeek de China acaba de publicar el único modelo de código abierto lo suficientemente bueno en matemáticas como para ganar en mi opinión el oro, ¡y un informe imprescindible! La idea clave se basa en cosas de las que Karpathy y otros han hablado: ir más allá de la "respuesta final RL" hacia un bucle generador–verificador–meta-verificador en lenguaje puro. – Un verificador está entrenado en RL para puntuar demostraciones. – Un meta-verificador revisa las críticas del verificador. – Un generador está entrenado en RL en señales de recompensa de verificadores para escribir y auto-verificar mejores demostraciones. Como todo vive en el lenguaje natural (sin Lean), esta receta DEBERÍA extenderse a muchos dominios verificables: ciencia, código, ¡cualquier lugar donde comprobar sea más fácil que resolver!

Populares

Ranking

Favoritas