Tác giả Ex-DeepSeek của Native Sparse Attention đã giành giải thưởng bài báo xuất sắc của ACL. Tôi đã may mắn được tham dự một buổi giảng trực tiếp nơi anh ấy tiết lộ: - mở rộng độ dài ngữ cảnh lên 1 triệu - điều này sẽ có trong mô hình biên giới tiếp theo Có lý do chính đáng để tin rằng DeepSeek V4 sẽ sử dụng NSA.