Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ускорение диффузионных LLM через адаптивное параллельное декодирование
Отличная статья о том, как ускорить диффузионные LLM (dLLMs) в 22 раза. С помощью кэша KV скорость можно увеличить до 57 раз.
dLLMs часто теряют время: они выполняют ненужное ремаскирование и декодирование с большим количеством дополнений во время полуавторегрессивного денойзинга. Learn2PD добавляет два простых трюка, чтобы сократить эти потери.
Умное определение "готово" для каждого токена: маленькая фильтровая модель учится определять, правильный ли токен. Как только он помечен как "готово", он больше не трогается. Это избегает постоянного цикла ремаскирования и значительно ускоряет декодирование.
Остановитесь, когда ответ завершен: Если появляется токен конца текста, декодирование останавливается немедленно. Это убивает огромное количество накладных расходов на дополнение, особенно для длинных выводов.
Они достигают больших ускорений с почти нулевыми потерями в качестве. На GSM8K (математические задачи) скорость улучшилась в 22 раза при 1024 токенах с точностью, по сути, без изменений. Для более длинных выводов ускорения становятся еще больше.
Работает с кэшем KV: в сочетании с приемами кэширования вы можете увеличить скорость до 57 раз, все еще с хорошей точностью.
Легкий и простой в добавлении: фильтр - это всего лишь маленькая MLP с ~2K параметрами. Вы не переобучаете базовую модель, просто обучаете фильтр постфактум и вставляете его в цикл декодирования.

Топ
Рейтинг
Избранное