這可能是我今年最喜歡的論文🤯 Rich Sutton聲稱目前的強化學習方法無法實現持續學習,因為它們不會在先前的知識上進行累積,每次的執行都是從零開始。 瑞士的研究人員介紹了Meta-RL,這可能破解了這個難題。通過元學習目標在多個回合中進行優化,這樣可以激勵代理先探索然後再利用。然後反思之前的失敗,以便未來的代理運行。 整體來說,這篇論文的結果令人難以置信,閱讀體驗也非常棒。 作者:@YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic