Sẽ thật tuyệt nếu chúng ta có một công cụ theo dõi các cơ chế chú ý về chi phí FLOPs cho một độ dài chuỗi nhất định. MLA thì cực kỳ tốn kém. DSA so với Qwen-next thì như thế nào? Các thiết kế dựa trên Mamba2? Sự chú ý mới của Shazeer? 65K, 256K, 1024K của DSA tương đương với cái gì?