Het zou fijn zijn als we een tracker hadden van aandachtmechanismen in termen van FLOPs-kosten voor een bepaalde sequentielengte. MLA is belachelijk duur. Hoe verhoudt DSA zich tot Qwen-next? Mamba2-gebaseerde ontwerpen? Nieuwe Shazeer Attention? Wat is 65K, 256K, 1024K van DSA equivalent aan?