Este podría ser mi artículo favorito del año🤯 Rich Sutton afirma que los métodos actuales de RL no nos llevarán al aprendizaje continuo porque no se basan en el conocimiento previo, cada ejecución comienza desde cero. Investigadores en Suiza presentan Meta-RL que podría resolver ese enigma. Optimizar a través de episodios con un objetivo de meta-aprendizaje, lo que luego incentiva a los agentes a explorar primero y luego explotar. Y luego reflexionar sobre fracasos anteriores para futuras ejecuciones de agentes. Resultados increíbles y una lectura increíble de un artículo en general. Autores: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic