我越来越相信,强化学习(RL)和类似技术只是重新发现了人类学习的方式。 想想看: 首先,一个模型在一种形式语言上进行预训练(基本上是上下文无关文法规则),这在模型内部生成了一个“句法子网”。 在这个子网的基础上,实际的“语言”(互联网数据集)在模型训练中被叠加(在形式语言的上下文中,这基本上被称为不受限制的文法)。 但是……这不就是人类婴儿学习语言的方式吗? 我们带着一个句法子网“预训练”,以理解语言的基本形式(信息传递的节奏,原始语法),然后在其上“施加”我们学习的实际语言。 真是令人着迷的东西!