Uma explicação rápida da diferença entre o treinamento consciente de quantização (QAT), como o Kimi K2, e o treinamento de baixa precisão (digamos FP4). Aqui está uma imagem de como a operação de avanço se parece para cada um. O treinamento QAT é principalmente uma otimização de inferência para reduzir a latência (ou seja, tokens por segundo para decodificação em pequenos lotes). A taxa de transferência geral provavelmente é menor do que usar bf16 ou fp8 diretamente, uma vez que durante o treinamento você tem uma quantização + dequantização extra antes de cada gemm. O treinamento de baixa precisão (por exemplo, FP4) quantiza tanto os pesos quanto as ativações e não dequantiza antes das multiplicações de matrizes. Se feito corretamente, a taxa de transferência deve aumentar bastante. O objetivo é acelerar os gemms usando entradas de menor precisão.