Giá cả của DeepSeek lại một lần nữa gây sốc, mặc dù hiệu suất có chút giảm sút, nhưng giá cả thì không thể chê vào đâu được như ở Mì Xoài Băng Thành. Mô hình mới sử dụng DeepSeek Sparse Attention (DSA) Lần đầu tiên thực hiện cơ chế chú ý thưa tinh vi, đạt được sự cải thiện lớn về hiệu quả huấn luyện và suy diễn văn bản dài mà gần như không ảnh hưởng đến hiệu quả đầu ra của mô hình.