一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

具有讽刺意味的是，变压器将其整个上下文窗口视为一个完全缺乏上下文的令牌袋。我们使用位置编码来使令牌的顺序具有上下文。但模型仍然不断困惑于哪个令牌是由谁说的。为什么没有源编码？

谁说了什么与他们说的时间一样是意义的基本要素。如果我们将每个令牌的来源编码到其中，无论是来自系统、开发者、用户、模型本身、模型的思维令牌、不受信任的第三方、特定工具……

这或多或少是一个二维位置编码，其中垂直维度表示谁，水平维度表示何时。这似乎可以省去很多麻烦。想象一下，如果每个人的声音，包括你自己的声音和内心独白，听起来完全一样。

@wokohomo @Theurgistic 这就是分词器的全部意义，或多或少——否则你总是会直接在原始字节的简单线性投影上进行训练。

30.78K

热门

排行

收藏