Краткое объяснение разницы между обучением с учетом квантования (QAT), как Kimi K2, и обучением с низкой точностью (например, FP4). Вот изображение того, как выглядит прямая операция для каждого из них. Обучение QAT в основном является оптимизацией вывода для снижения задержки (т.е. токенов в секунду для декодирования небольших партий). Общая пропускная способность, вероятно, ниже, чем при использовании bf16 или fp8 напрямую, поскольку во время обучения у вас есть дополнительное квантование + деквантование перед каждым gemm. Обучение с низкой точностью (например, FP4) квантует как веса, так и активации и не деквантует перед матмультипликациями. Если все сделано правильно, пропускная способность должна значительно увеличиться. Вся суть заключается в ускорении gemm, используя входные данные с низкой точностью.