一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我越來越相信，強化學習（RL）和類似技術只是重新發現人類學習的方式。想想看：首先，一個模型在一種形式語言上進行預訓練（基本上是上下文無關文法規則），這會在模型內生成一個「語法子網」。在這個子網的基礎上，然後在實際模型訓練中（在形式語言的背景下，這基本上被稱為不受限文法）疊加上「真實語言」（互聯網數據集）。但是……這不就是人類嬰兒學習語言的方式嗎？我們帶著一個語法子網的「預訓練」來理解語言的基本形式（信息傳遞的節奏、原始文法），然後在其上「施加」我們學習的實際語言。真是迷人的東西！