token、residual、activation 和 latent 之間有什麼區別?對我來說,這些似乎都指的是同一個物體,通常是一個 N 維的浮點數向量,隨著時間的推移會經歷一些演變。然而,人們似乎堅持某些東西是其中之一,但不是其他的。
@yudhister_ 不過如果你這樣看,說變壓器是代幣化的似乎很奇怪……變壓器從來沒有看到過代幣。代幣之間沒有交叉注意力。它們必須先轉換成潛在表示。
@yudhister_ 人們卻把代幣當作插槽來談論,「代幣之間的自我注意」,而代幣從持有整數變成持有浮點數的向量。
@JFPuget 你稱那些承載殘餘流的插槽為什麼?
676