如預期,NSA 與 MLA 不相容,因此 DeepSeek 選擇了另一種方法:使用較小的 (d=128) 注意力 (不帶值) 作為索引器。 漸進成本比 = 128/576。 此外,索引器使用 FP8,而主 MLA 使用 16 位,因此 = 64/576 = 1/9。