- 泛化只是一種算法。 - (反饋)變壓器可以通過 GD 學習任何算法。 主要問題:在什麼訓練數據上? 我的信念:當在適當選擇的問題上用 RL 訓練變壓器時,泛化能力將會出現並顯著提高。