熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我越來越相信,強化學習(RL)和類似技術只是重新發現人類學習的方式。
想想看:
首先,一個模型在一種形式語言上進行預訓練(基本上是上下文無關文法規則),這會在模型內生成一個「語法子網」。
在這個子網的基礎上,然後在實際模型訓練中(在形式語言的背景下,這基本上被稱為不受限文法)疊加上「真實語言」(互聯網數據集)。
但是……這不就是人類嬰兒學習語言的方式嗎?
我們帶著一個語法子網的「預訓練」來理解語言的基本形式(信息傳遞的節奏、原始文法),然後在其上「施加」我們學習的實際語言。
真是迷人的東西!
熱門
排行
收藏
