DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

🚨DeepSeek de China acaba de lanzar el único modelo de código abierto lo suficientemente bueno en matemáticas como para ganar el oro en IMO, ¡y un informe que debes leer! La idea clave se basa en cosas de las que han hablado Karpathy y otros: ir más allá del "RL de respuesta final" hacia un bucle generador–verificador–meta-verificador en lenguaje puro. – Un verificador es entrenado con RL para puntuar pruebas. – Un meta-verificador revisa las críticas del verificador. – Un generador es entrenado con RL en señales de recompensa del verificador para escribir y auto-verificar mejores pruebas. Dado que todo vive en lenguaje natural (sin Lean), esta receta DEBERÍA extenderse a muchos dominios verificables: ciencia, código, ¡cualquier lugar donde verificar sea más fácil que resolver!

Parte superior

Clasificación

Favoritos