- 泛化只是一个算法。 - (反馈)变压器可以通过梯度下降学习任何算法。 主要问题:在什么训练数据上? 我的信念:当在适当选择的问题上用强化学习训练变压器时,泛化能力将会出现并显著提高。