Den virkelige gevinsten ved å kunne trene en 1T-parametermodell på et "skostreng"-budsjett er ikke kostnadsbesparelsene.
Det er effektivitetsgevinsten som lar deg bevege deg raskere og øke iterasjonshastigheten. Vær oppmerksom på skråningen.
Siden jeg kan huske, kommer de beste dyplæringsmodellene fra laboratoriene som itererer raskest.
En rask forklaring på forskjellen mellom kvantiseringsbevisst trening (QAT), som Kimi K2, og trening med lav presisjon (si FP4). Her er et bilde av hvordan den fremskutte operasjonen ser ut for hver.
QAT-trening er for det meste en slutningsoptimalisering for å redusere ventetiden (dvs. tokener per sekund for dekoding av små partier). Den totale gjennomstrømningen er sannsynligvis lavere enn å bruke bf16 eller fp8 direkte, siden du under trening har en ekstra kvantisering+dekvantisering før hver perle.
Trening med lav presisjon (f.eks. FP4) kvantiserer både vekter og aktiveringer og dekvantiserer ikke før matmuls. Hvis det gjøres riktig, bør gjennomstrømningen øke mye. Hele poenget er å akselerere perlene ved å bruke innganger med lavere presisjon.