Sería genial si tuviéramos un rastreador de mecanismos de atención en términos de costo de FLOPs para una longitud de secuencia dada. MLA es increíblemente caro. ¿Cómo se compara DSA con Qwen-next? ¿Diseños basados en Mamba2? ¿Nueva atención de Shazeer? ¿A qué equivale 65K, 256K, 1024K de DSA?