Det ville vært fint om vi hadde en sporing av oppmerksomhetsmekanismer når det gjelder FLOP-kostnader til en gitt sekvenslengde. MLA er sinnsykt dyrt. Hvordan stables DSA mot Qwen-next? Mamba2-baserte design? Ny Shazeer-oppmerksomhet? Hva tilsvarer 65K, 256K, 1024K DSA?