如果我们有一个关于注意机制在给定序列长度下的FLOPs成本的跟踪器,那就太好了。MLA的成本极其高昂。DSA与Qwen-next相比如何?基于Mamba2的设计呢?新的Shazeer Attention呢?DSA的65K、256K、1024K分别相当于什么?