En snabb förklaring av skillnaden mellan kvantiseringsmedveten träning (QAT), som Kimi K2, och träning med låg precision (säg FP4). Här är en bild på hur den framåtriktade operationen ser ut för var och en. QAT-träning är främst en inferensoptimering för att minska latensen (dvs. token per sekund för avkodning av små batcher). Det totala dataflödet är troligen lägre än om du använder bf16 eller fp8 direkt, eftersom du under träningen har en extra kvantisering+dekvantisering före varje gemm. Lågprecisionsträning (t.ex. FP4) kvantiserar både vikter och aktiveringar och dekvantiserar inte före matmuls. Om det görs på rätt sätt bör dataflödet öka mycket. Hela poängen är att accelerera gemms genom att använda indata med lägre precision.