Như đã dự đoán, NSA không tương thích với MLA, vì vậy DeepSeek đã chọn một phương pháp khác: sử dụng một attention nhỏ hơn (d=128) (không có giá trị) làm chỉ mục. Tỷ lệ chi phí tiệm cận = 128/576. Ngoài ra, chỉ mục sử dụng FP8 trong khi MLA chính sử dụng 16-bit, vì vậy = 64/576 = 1/9.