Seria bom se tivéssemos um rastreador de mecanismos de atenção em termos de custo de FLOPs para um determinado comprimento de sequência. O MLA é incrivelmente caro. Como o DSA se compara ao Qwen-next? Projetos baseados em Mamba2? Nova atenção do Shazeer? A que equivale 65K, 256K, 1024K de DSA?