Det skulle vara trevligt om vi hade en tracker av uppmärksamhetsmekanismer när det gäller FLOPs kostnad till en given sekvenslängd. MLA är vansinnigt dyrt. Hur står sig DSA mot Qwen-next? Mamba2-baserade mönster? Ny Shazeer Uppmärksamhet? Vad motsvarar 65K, 256K, 1024K DSA?