这可能是我今年最喜欢的论文🤯 Rich Sutton声称,当前的强化学习方法无法实现持续学习,因为它们无法在之前的知识基础上进行积累,每次的回合都是从头开始。 瑞士的研究人员引入了Meta-RL,可能会破解这个难题。通过元学习目标在多个回合中进行优化,这样可以激励智能体先探索,然后再利用。然后反思之前的失败,以便为未来的智能体运行做准备。 整体而言,结果令人难以置信,论文也非常值得一读。 作者:@YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic