「人們根本需要的不是注意力本身,而是一個足夠表達的幾何演變機制來隱藏表示」 非常公平。注意力是一種形狀旋轉的特例。 但我認為對於靜態模型來說,某種二次元素是不可避免的。
himanshu
himanshu21 小時前
我們今年以高昂的情緒結束,對吧?
如果我們沒有深層的記憶更新層級,人類也會是二次方的,這一點並沒有真正被 kv cache 捕捉到。這就是為什麼 HOPE 也很有趣。
85