对我们物理Atari工作的很好的后续。 只在快速和简单的模拟环境中使用强化学习的人,往往低估了现实世界的复杂性;他们最终会制定在复杂环境中无法实现的研究目标(例如,零样本泛化、学习因果模型)。 物理Atari仍然是一个极其简单的环境,但它足以突出为快速模拟学习而开发的方法的局限性。 人类和动物在比物理Atari复杂得多的环境中学习。如果我们想要丰富的智能,开发能够做到这一点的算法应该是目标。