量化感知训练(QAT),例如 Kimi K2,与低精度(例如 FP4)训练之间的区别的快速解释。以下是每种方法的前向操作的示意图。 QAT 训练主要是一种推理优化,旨在减少延迟(即小批量解码的每秒令牌数)。总体吞吐量可能低于直接使用 bf16 或 fp8,因为在训练期间,每次 gemm 之前都有额外的量化和反量化。 低精度训练(例如 FP4)对权重和激活进行量化,并且在矩阵乘法之前不进行反量化。如果操作得当,吞吐量应该会大幅提高。其核心目的是通过使用低精度输入来加速 gemm。