Tại sao dpskv3.2 lại thú vị cho cả cộng đồng attn thưa thớt và attn tuyến tính từ @SonglinYang4 (Cảnh báo: điều này bằng tiếng Trung) tóm tắt cơ bản là: 1. sau tất cả, mặc dù swa và attn tuyến tính rất phổ biến, nhưng vẫn khó để loại bỏ lớp attn đầy đủ cho một số nhiệm vụ nhất định. vì vậy mọi người chọn hybrid (ví dụ như qwen-next) 2. tuy nhiên, ngay cả những lớp attn đầy đủ hạn chế cũng có thể tốn kém cho ngữ cảnh rất dài, vì vậy attn thưa thớt vẫn thú vị để thay thế cho các lớp attn đầy đủ còn lại. 3. trong khi mục đích của tuyến tính là để làm nóng swa với hiệu suất gần như hiệu quả nhưng có số liệu tốt hơn 4. Cá nhân tôi rất thích MoBA và DSA, vì nó có thể được đào tạo liên tục và bảo tồn khả năng attn tuyệt vời đã học trong các giai đoạn đào tạo attn đầy đủ! Một chút quảng cáo ở đây: công việc của moonshot, MoBA (được chấp nhận tại NIPs 25, nó cũng là một attn thưa thớt đơn giản và hiệu quả, hoàn toàn hỗ trợ đào tạo liên tục và không tham số.