如果我們能有一個關於注意力機制的追蹤器,根據給定序列長度的 FLOPs 成本,那就太好了。MLA 的成本非常高。DSA 與 Qwen-next 的比較如何?基於 Mamba2 的設計呢?新的 Shazeer 注意力呢?65K、256K、1024K 的 DSA 相當於什麼?