Seria bom se tivéssemos um rastreador de mecanismos de atenção em termos de custo de FLOPs para um determinado comprimento de sequência. O MLA é insuportavelmente caro. Como o DSA se compara ao Qwen-next? Designs baseados em Mamba2? Nova Atenção Shazeer? O que é 65K, 256K, 1024K de DSA equivalente a?