最近有很多關於強化學習(RL)預訓練的論文。我不知道,顯然這是有效的,但感覺這樣做實在太糟糕了,我們實際上是在為標記進行抽樣。這是潛在推理明顯可取的唯一地方。 儘管如此,這是有效的。對Sutton的另一個反駁。