Ускорение диффузионных LLM через адаптивное параллельное декодирование Отличная статья о том, как ускорить диффузионные LLM (dLLMs) в 22 раза. С помощью кэша KV скорость можно увеличить до 57 раз. dLLMs часто теряют время: они выполняют ненужное ремаскирование и декодирование с большим количеством дополнений во время полуавторегрессивного денойзинга. Learn2PD добавляет два простых трюка, чтобы сократить эти потери. Умное определение "готово" для каждого токена: маленькая фильтровая модель учится определять, правильный ли токен. Как только он помечен как "готово", он больше не трогается. Это избегает постоянного цикла ремаскирования и значительно ускоряет декодирование. Остановитесь, когда ответ завершен: Если появляется токен конца текста, декодирование останавливается немедленно. Это убивает огромное количество накладных расходов на дополнение, особенно для длинных выводов. Они достигают больших ускорений с почти нулевыми потерями в качестве. На GSM8K (математические задачи) скорость улучшилась в 22 раза при 1024 токенах с точностью, по сути, без изменений. Для более длинных выводов ускорения становятся еще больше. Работает с кэшем KV: в сочетании с приемами кэширования вы можете увеличить скорость до 57 раз, все еще с хорошей точностью. Легкий и простой в добавлении: фильтр - это всего лишь маленькая MLP с ~2K параметрами. Вы не переобучаете базовую модель, просто обучаете фильтр постфактум и вставляете его в цикл декодирования.