對我們的實體 Atari 工作的很棒的後續。 只使用快速且簡單的模擬環境進行強化學習的人,往往低估了現實世界的複雜性;他們最終會制定出在複雜環境中無法實現的研究目標(例如,零樣本泛化、學習因果模型)。 實體 Atari 仍然是一個極其簡單的環境,但它足以突顯出為快速模擬學習而開發的方法的局限性。 人類和動物在比實體 Atari 複雜得多的環境中學習。如果我們想要豐富的智慧,開發能做到這一點的算法應該是目標。