Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Kiến trúc LLM thế hệ tiếp theo sẽ trông như thế nào? Câu hỏi này luôn gây ra những cuộc tranh luận — và người đóng góp & nhà phát triển trên Zhihu, Yuxuan, đưa ra một so sánh sắc bén giữa DeepSeek Sparse Attention (DSA) và Native Sparse Attention (NSA), cùng với cái nhìn thực tiễn về việc triển khai các toán tử DSA với TileLang. 🚀 Tại sao DSA > NSA (trong các tác vụ dài ngữ cảnh): Từ các thí nghiệm thêm DSA vào các mô hình nhỏ và so sánh với NSA, DSA liên tục hoạt động tốt hơn — chủ yếu nhờ vào hai lựa chọn thiết kế chính: 1️⃣ Chưng cất Attn-Score → giám sát rõ ràng cho việc chọn chỉ số 2️⃣ Tính thưa ở cấp độ token thay vì cấp độ khối → truy xuất chính xác hơn, tinh vi hơn 🔍 1) Chưng cất Attn-Score Sự chú ý thưa phụ thuộc vào việc chọn các cặp khóa-giá trị đúng. DSA giám sát trực tiếp mô-đun chỉ số bằng cách sử dụng các điểm số chú ý thực, căn chỉnh việc đào tạo với mục tiêu thực tế: "chọn các token quan trọng." NSA thay vào đó chỉ tối ưu hóa tổn thất LM, không cung cấp ràng buộc rõ ràng nào về độ chính xác của chỉ số — điều này giải thích cho hiệu suất yếu hơn của nó trên các tiêu chuẩn truy xuất tài liệu dài. 🔍 2) Tính thưa ở cấp độ Token so với Cấp độ Khối Độ chính xác tỷ lệ thuận với ngân sách tính toán: chỉ số chính xác hơn → truy xuất tốt hơn. Chỉ số cấp độ token (DSA) tự nhiên mang lại độ trung thực cao hơn so với cấp độ khối (NSA). Từ góc độ này, nút thắt hiệu suất của NSA là điều dễ hiểu — một câu hỏi thú vị: Liệu kích thước khối=8 có giúp NSA bắt kịp DSA không? ⚙️ Thách thức thực sự: Đào tạo DSA một cách hiệu quả Đào tạo DSA bao gồm Khởi động → Tinh chỉnh Thưa. Thách thức: tính toán và lưu trữ điểm số chú ý của cả hai nhánh. Một triển khai ngây thơ yêu cầu O(n²) bộ nhớ — làm mất đi lợi ích tiết kiệm bộ nhớ của FlashAttention. Ngay cả việc lọc trước (k=2048, h=512+64) vẫn yêu cầu các bộ đệm lớn. 📎 Mã: 🧩 Hợp nhất Kernel để Giải cứu (Hình 1) Để tránh lưu trữ các điểm số Attn-Score trung gian khổng lồ, DSA sử dụng các kernel hợp nhất. Một mẹo chính là kết hợp Chỉ số-Điểm + Top-k trong một kernel: • Duy trì một bộ đệm 2K • Tính toán Chỉ số-Điểm cho mỗi khối...

Hàng đầu

Thứ hạng

Yêu thích