Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Прискорення дифузійних ЛМ за допомогою адаптивного паралельного декодування
Чудова стаття про прискорення дифузійних LLM (dLLM) у 22 рази. За допомогою кешу KV прискорення можна збільшити до 57x.
dLLM часто марнують час: вони виконують непотрібне маскування та декодування з великою кількістю відступів під час напівавторегресійного знешумлення. Learn2PD додає два прості трюки, щоб скоротити ці відходи.
Розумніше виявлення "готово" на токен: модель крихітного фільтра вчиться визначати, чи токен вже правильний. Після того, як він позначений як «готово», його більше ніколи не чіпають. Це дозволяє уникнути постійного циклу повторного маскування і значно прискорює декодування.
Зупиніться, коли відповідь закінчиться: якщо з'явиться маркер кінця тексту, декодування негайно припиняється. Це усуває величезну кількість накладних відступів, особливо при тривалих виходах.
Вони досягають значного приросту швидкості майже без втрати якості. На GSM8K (задачі з математики) швидкість покращилася на 22× на 1024 токени з точністю практично не змінилася. Для довших виходів прискорення стає ще більшим.
Працює з кешем KV: поєднуйте з трюками кешування, і ви можете збільшити прискорення до 57×, все ще з високою точністю.
Легкий і простий у складанні: фільтр являє собою просто крихітний MLP з параметрами ~2K. Ви не переучуєте базову модель, а просто тренуєте фільтр post hoc і кидаєте його в цикл декодування.

Найкращі
Рейтинг
Вибране