Olisi mukavaa, jos meillä olisi tarkkaavaisuusmekanismien seuranta FLOP:ien kustannusten suhteen tiettyyn sekvenssin pituuteen. MLA on järjettömän kallis. Miten DSA pinoaa Qwen-nextiä vastaan? Mamba2-pohjaiset mallit? New Shazeer Huomio? Mitä DSA:n 65K, 256K, 1024K vastaa?