Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Краткое объяснение разницы между обучением с учетом квантования (QAT), как Kimi K2, и обучением с низкой точностью (например, FP4). Вот изображение того, как выглядит прямая операция для каждого из них.
Обучение QAT в основном является оптимизацией вывода для снижения задержки (т.е. токенов в секунду для декодирования небольших партий). Общая пропускная способность, вероятно, ниже, чем при использовании bf16 или fp8 напрямую, поскольку во время обучения у вас есть дополнительное квантование + деквантование перед каждым gemm.
Обучение с низкой точностью (например, FP4) квантует как веса, так и активации и не деквантует перед матмультипликациями. Если все сделано правильно, пропускная способность должна значительно увеличиться. Вся суть заключается в ускорении gemm, используя входные данные с низкой точностью.

Топ
Рейтинг
Избранное

