Ini mungkin koran favorit saya tahun🤯 ini Rich Sutton mengklaim bahwa metode RL saat ini tidak akan membawa kita ke pembelajaran berkelanjutan karena mereka tidak menggabungkan pengetahuan sebelumnya, setiap peluncuran dimulai dari awal. Para peneliti di Swiss memperkenalkan Meta-RL yang mungkin memecahkan kode itu. Optimalkan di seluruh episode dengan tujuan meta-learning, yang kemudian memberi insentif kepada agen untuk menjelajahi terlebih dahulu dan kemudian mengeksploitasi. Dan kemudian renungkan kegagalan sebelumnya untuk eksekusi agen di masa mendatang. Hasil yang luar biasa dan pembacaan makalah yang luar biasa secara keseluruhan. Penulis: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic