Ar fi frumos dacă am avea un tracker al mecanismelor de atenție în ceea ce privește costul FLOP-urilor la o anumită lungime de secvență. MLA este incredibil de scump. Cum se cumulează DSA împotriva Qwen-next? Modele bazate pe Mamba2? Atenția noului Shazeer? Cu ce este echivalent 65K, 256K, 1024K de DSA?