Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Như đã dự đoán, NSA không tương thích với MLA, vì vậy DeepSeek đã chọn một phương pháp khác: sử dụng một attention nhỏ hơn (d=128) (không có giá trị) làm chỉ mục.
Tỷ lệ chi phí tiệm cận = 128/576.
Ngoài ra, chỉ mục sử dụng FP8 trong khi MLA chính sử dụng 16-bit, vì vậy = 64/576 = 1/9.

Hàng đầu
Thứ hạng
Yêu thích