Прискорення дифузійних ЛМ за допомогою адаптивного паралельного декодування Чудова стаття про прискорення дифузійних LLM (dLLM) у 22 рази. За допомогою кешу KV прискорення можна збільшити до 57x. dLLM часто марнують час: вони виконують непотрібне маскування та декодування з великою кількістю відступів під час напівавторегресійного знешумлення. Learn2PD додає два прості трюки, щоб скоротити ці відходи. Розумніше виявлення "готово" на токен: модель крихітного фільтра вчиться визначати, чи токен вже правильний. Після того, як він позначений як «готово», його більше ніколи не чіпають. Це дозволяє уникнути постійного циклу повторного маскування і значно прискорює декодування. Зупиніться, коли відповідь закінчиться: якщо з'явиться маркер кінця тексту, декодування негайно припиняється. Це усуває величезну кількість накладних відступів, особливо при тривалих виходах. Вони досягають значного приросту швидкості майже без втрати якості. На GSM8K (задачі з математики) швидкість покращилася на 22× на 1024 токени з точністю практично не змінилася. Для довших виходів прискорення стає ще більшим. Працює з кешем KV: поєднуйте з трюками кешування, і ви можете збільшити прискорення до 57×, все ще з високою точністю. Легкий і простий у складанні: фільтр являє собою просто крихітний MLP з параметрами ~2K. Ви не переучуєте базову модель, а просто тренуєте фільтр post hoc і кидаєте його в цикл декодування.