Sarebbe utile avere un tracker dei meccanismi di attenzione in termini di costo in FLOPs per una data lunghezza di sequenza. MLA è incredibilmente costoso. Come si confronta DSA con Qwen-next? Progetti basati su Mamba2? Nuova Shazeer Attention? A cosa corrispondono 65K, 256K, 1024K di DSA?