Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een snelle uitleg van het verschil tussen quantization aware training (QAT), zoals Kimi K2, en low precision (bijvoorbeeld FP4) training. Hier is een afbeelding van hoe de forward operatie eruit ziet voor elk.
QAT training is voornamelijk een optimalisatie voor inferentie om de latentie te verminderen (d.w.z. tokens-per-seconde voor kleine batch decodering). De totale doorvoer is waarschijnlijk lager dan bij het direct gebruik van bf16 of fp8, aangezien je tijdens de training een extra quantize+dequantize hebt voor elke gemm.
Low precision training (bijv. FP4) quantizeert zowel gewichten als activaties en dequantizeert niet voor matmuls. Als het goed gedaan wordt, zou de doorvoer aanzienlijk moeten toenemen. Het hele punt is om de gemms te versnellen door lagere precisie-invoeren te gebruiken.

Boven
Positie
Favorieten

