Uma explicação rápida da diferença entre o treinamento com reconhecimento de quantização (QAT), como o Kimi K2, e o treinamento de baixa precisão (digamos FP4). Aqui está uma imagem de como é a operação avançada para cada um. O treinamento QAT é principalmente uma otimização de inferência para reduzir a latência (ou seja, tokens por segundo para decodificação de pequenos lotes). A taxa de transferência geral é provavelmente menor do que usar bf16 ou fp8 diretamente, pois durante o treinamento você tem um quantize + dequantize extra antes de cada gemm. O treinamento de baixa precisão (por exemplo, FP4) quantifica pesos e ativações e não desquantiza antes dos matmuls. Se feito corretamente, a taxa de transferência deve aumentar muito. O objetivo é acelerar os gemms usando entradas de menor precisão.