Mempercepat LLM Difusi melalui Decoding Paralel Adaptif Makalah bagus tentang mempercepat LLM gaya difusi (dLLM) sebanyak 22x. Dengan cache KV, percepatan dapat didorong lebih lanjut hingga 57x. dLLM sering membuang waktu: mereka melakukan penggantian ulang yang tidak perlu dan decoding berat bantalan selama denoise semi-autoregresif. Learn2PD menambahkan dua trik sederhana untuk mengurangi pemborosan itu. Deteksi "selesai" yang lebih cerdas per token: Model filter kecil belajar untuk mengetahui apakah token sudah benar. Setelah ditandai "selesai", itu tidak pernah disentuh lagi. Ini menghindari loop reasking yang konstan dan mempercepat decoding banyak. Berhenti saat jawaban berakhir: Jika token End-of-Text muncul, decoding segera berhenti. Ini membunuh sejumlah besar bantalan di atas kepala, terutama untuk output yang panjang. Mereka mencapai peningkatan kecepatan besar dengan hampir tidak ada kehilangan kualitas. Pada GSM8K (soal matematika), kecepatan meningkat 22× pada 1024 token dengan akurasi pada dasarnya tidak berubah. Untuk output yang lebih lama, percepatan menjadi lebih besar. Bekerja dengan cache KV: Gabungkan dengan trik caching, dan Anda dapat mendorong kecepatan hingga 57×, masih dengan akurasi yang solid. Ringan dan mudah ditambahkan: Filternya hanyalah MLP kecil dengan parameter ~2K. Anda tidak melatih ulang model dasar, cukup latih filter post-hoc dan jatuhkan ke dalam loop decoding.