Tăng tốc Diffusion LLMs thông qua Giải mã Song song Thích ứng Bài báo tuyệt vời về việc tăng tốc các LLM kiểu diffusion (dLLMs) lên 22 lần. Với bộ nhớ KV, tốc độ có thể được đẩy lên 57 lần. dLLMs thường lãng phí thời gian: chúng thực hiện việc remasking không cần thiết và giải mã nặng padding trong quá trình khử nhiễu bán tự động. Learn2PD thêm hai mẹo đơn giản để cắt giảm sự lãng phí đó. Phát hiện “hoàn thành” thông minh hơn cho từng token: Một mô hình lọc nhỏ học cách xác định xem một token đã chính xác hay chưa. Khi nó được đánh dấu là “hoàn thành,” nó sẽ không bị chạm vào nữa. Điều này tránh được vòng lặp remasking liên tục và tăng tốc độ giải mã rất nhiều. Dừng lại khi câu trả lời kết thúc: Nếu token Kết thúc Văn bản xuất hiện, việc giải mã dừng lại ngay lập tức. Điều này loại bỏ một lượng lớn overhead padding, đặc biệt là cho các đầu ra dài. Họ đạt được sự tăng tốc lớn với hầu như không mất chất lượng. Trên GSM8K (các bài toán toán học), tốc độ cải thiện 22× ở 1024 token với độ chính xác gần như không thay đổi. Đối với các đầu ra dài hơn, tốc độ tăng còn lớn hơn. Hoạt động với bộ nhớ KV: Kết hợp với các mẹo caching, bạn có thể đẩy tốc độ lên 57×, vẫn với độ chính xác vững chắc. Nhẹ và dễ thêm vào: Bộ lọc chỉ là một MLP nhỏ với ~2K tham số. Bạn không cần huấn luyện lại mô hình cơ sở, chỉ cần huấn luyện bộ lọc sau đó và đưa nó vào vòng lặp giải mã.