Як і очікувалося, NSA несумісний з MLA, тому DeepSeek обрав інший метод: використовувати меншу (d=128) увагу (без значення) як індексатор. Асимптотичний коефіцієнт вартості = 128/576. Крім того, індексатор використовує FP8, тоді як основний MLA використовує 16-біт, тому = 64/576 = 1/9.