Kimi K2 のような量子化認識トレーニング (QAT) と、低精度 (FP4 など) トレーニングの違いを簡単に説明します。それぞれのフォワード操作がどのように見えるかの写真を次に示します。 QATトレーニングは、主にレイテンシーを減らすための推論最適化です(つまり、小規模なバッチデコードの1秒あたりのトークン数)。全体的なスループットは、トレーニング中に各 gemm の前に追加の量子化 + 逆量子化があるため、bf16 または fp8 を直接使用するよりも低くなる可能性があります。 低精度のトレーニング(FP4など)は、重みと活性化の両方を量子化し、マトムの前にデクオンタイズしません。適切に行えば、スループットは大幅に向上するはずです。重要なのは、より低い精度の入力を使用してジェムを高速化することです。