我越來越相信,強化學習(RL)和類似技術只是重新發現人類學習的方式。 想想看: 首先,一個模型在一種形式語言上進行預訓練(基本上是上下文無關文法規則),這會在模型內生成一個「語法子網」。 在這個子網的基礎上,然後在實際模型訓練中(在形式語言的背景下,這基本上被稱為不受限文法)疊加上「真實語言」(互聯網數據集)。 但是……這不就是人類嬰兒學習語言的方式嗎? 我們帶著一個語法子網的「預訓練」來理解語言的基本形式(信息傳遞的節奏、原始文法),然後在其上「施加」我們學習的實際語言。 真是迷人的東西!