Byłoby miło, gdybyśmy mieli tracker mechanizmów uwagi w odniesieniu do kosztów FLOPs dla danej długości sekwencji. MLA jest niesamowicie drogie. Jak DSA wypada w porównaniu do Qwen-next? Projekty oparte na Mamba2? Nowa uwaga Shazeera? Co odpowiada 65K, 256K, 1024K DSA?