Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Như đã dự đoán, NSA không tương thích với MLA, vì vậy DeepSeek đã chọn một phương pháp khác: sử dụng một attention nhỏ hơn (d=128) (không có giá trị) làm chỉ mục. Tỷ lệ chi phí tiệm cận = 128/576. Ngoài ra, chỉ mục sử dụng FP8 trong khi MLA chính sử dụng 16-bit, vì vậy = 64/576 = 1/9.

Hàng đầu

Thứ hạng

Yêu thích