最近有很多关于预训练的强化学习论文。我不知道,显然这有效,但感觉如此糟糕,我们实际上是在为令牌抽样 CoTs。这是潜在推理显然是可取的唯一地方。 尽管如此,还是有效的。对 Sutton 的另一个反驳。