Como era de esperar, NSA no es compatible con MLA, por lo que DeepSeek eligió otro método: usar una atención más pequeña (d = 128) (sin valor) como indexador. Relación de costos asintóticos = 128/576. Además, el indexador usa FP8 mientras que el MLA principal usa 16 bits, por lo que = 64/576 = 1/9.