热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我越来越相信,强化学习(RL)和类似技术只是重新发现了人类学习的方式。
想想看:
首先,一个模型在一种形式语言上进行预训练(基本上是上下文无关文法规则),这在模型内部生成了一个“句法子网”。
在这个子网的基础上,实际的“语言”(互联网数据集)在模型训练中被叠加(在形式语言的上下文中,这基本上被称为不受限制的文法)。
但是……这不就是人类婴儿学习语言的方式吗?
我们带着一个句法子网“预训练”,以理解语言的基本形式(信息传递的节奏,原始语法),然后在其上“施加”我们学习的实际语言。
真是令人着迷的东西!
热门
排行
收藏
