“一个人根本需要的不是注意力本身,而是一个足够表达的几何演变机制,用于隐藏表示。” 非常公平。注意力是形状旋转的一个特例。 但我认为某种二次元素在静态模型中是不可避免的。
himanshu
himanshu17 小时前
我们今年以一个高昂的音调结束,是吗?
如果我们没有深层次的记忆更新层次结构,人类也会是二次的,这一点并没有被 kv cache 真实捕捉到。这就是 HOPE 也很有趣的原因。
77