Como se esperaba, NSA no es compatible con MLA, por lo que DeepSeek eligió otro método: usar una atención más pequeña (d=128) (sin valor) como indexador. La relación de costo asintótica = 128/576. Además, el indexador utiliza FP8 mientras que el MLA principal utiliza 16 bits, por lo que = 64/576 = 1/9.