Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Une explication rapide de la différence entre l'entraînement conscient de la quantification (QAT), comme Kimi K2, et l'entraînement en basse précision (par exemple FP4). Voici une image de ce à quoi ressemble l'opération de propagation pour chacun.
L'entraînement QAT est principalement une optimisation d'inférence pour réduire la latence (c'est-à-dire les tokens par seconde pour le décodage en petits lots). Le débit global est probablement inférieur à celui de l'utilisation directe de bf16 ou fp8, car pendant l'entraînement, vous avez une quantification + déquantification supplémentaires avant chaque gemm.
L'entraînement en basse précision (par exemple FP4) quantifie à la fois les poids et les activations et ne déquantifie pas avant les matmuls. Si cela est fait correctement, le débit devrait augmenter considérablement. L'objectif est d'accélérer les gemms en utilisant des entrées de plus basse précision.

Meilleurs
Classement
Favoris

