Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uma explicação rápida da diferença entre o treinamento consciente de quantização (QAT), como o Kimi K2, e o treinamento de baixa precisão (digamos FP4). Aqui está uma imagem de como a operação de avanço se parece para cada um.
O treinamento QAT é principalmente uma otimização de inferência para reduzir a latência (ou seja, tokens por segundo para decodificação em pequenos lotes). A taxa de transferência geral provavelmente é menor do que usar bf16 ou fp8 diretamente, uma vez que durante o treinamento você tem uma quantização + dequantização extra antes de cada gemm.
O treinamento de baixa precisão (por exemplo, FP4) quantiza tanto os pesos quanto as ativações e não dequantiza antes das multiplicações de matrizes. Se feito corretamente, a taxa de transferência deve aumentar bastante. O objetivo é acelerar os gemms usando entradas de menor precisão.

Top
Classificação
Favoritos

