Es wäre schön, wenn wir einen Tracker für Aufmerksamkeitsmechanismen in Bezug auf die FLOPs-Kosten für eine gegebene Sequenzlänge hätten. MLA ist wahnsinnig teuer. Wie schneidet DSA im Vergleich zu Qwen-next ab? Mamba2-basierte Designs? Neue Shazeer Attention? Was entspricht 65K, 256K, 1024K von DSA?