一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我越来越相信，强化学习（RL）和类似技术只是重新发现了人类学习的方式。想想看：首先，一个模型在一种形式语言上进行预训练（基本上是上下文无关文法规则），这在模型内部生成了一个“句法子网”。在这个子网的基础上，实际的“语言”（互联网数据集）在模型训练中被叠加（在形式语言的上下文中，这基本上被称为不受限制的文法）。但是……这不就是人类婴儿学习语言的方式吗？我们带着一个句法子网“预训练”，以理解语言的基本形式（信息传递的节奏，原始语法），然后在其上“施加”我们学习的实际语言。真是令人着迷的东西！