具有讽刺意味的是,变压器将其整个上下文窗口视为一个完全缺乏上下文的令牌袋。 我们使用位置编码来使令牌的顺序具有上下文。但模型仍然不断困惑于哪个令牌是由谁说的。为什么没有源编码?
谁说了什么与他们说的时间一样是意义的基本要素。如果我们将每个令牌的来源编码到其中,无论是来自系统、开发者、用户、模型本身、模型的思维令牌、不受信任的第三方、特定工具……
这或多或少是一个二维位置编码,其中垂直维度表示谁,水平维度表示何时。这似乎可以省去很多麻烦。想象一下,如果每个人的声音,包括你自己的声音和内心独白,听起来完全一样。
@wokohomo @Theurgistic 这就是分词器的全部意义,或多或少——否则你总是会直接在原始字节的简单线性投影上进行训练。
30.78K