Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Puede que este sea mi artículo favorito del año🤯 Rich Sutton afirma que los métodos actuales de RL no nos llevarán al aprendizaje continuo porque no se basan en conocimientos previos, cada despliegue empieza desde cero. Investigadores en Suiza introducen Meta-RL, que podría descifrar ese código. Optimiza entre episodios con un objetivo de meta-aprendizaje, que incentiva a los agentes a explorar primero y luego explotar. Y luego reflexiona sobre fallos anteriores para futuras partidas de agentes. Resultados increíbles y lectura increíble de un artículo en general. Autores: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic

Populares

Ranking

Favoritas