Szybkie wyjaśnienie różnicy między treningiem świadomym kwantyzacji (QAT), takim jak Kimi K2, a treningiem o niskiej precyzji (powiedzmy FP4). Oto obrazek ilustrujący, jak wygląda operacja forward dla każdego z nich. Trening QAT to głównie optymalizacja wnioskowania mająca na celu zmniejszenie opóźnienia (tj. tokenów na sekundę przy dekodowaniu małych partii). Całkowita przepustowość prawdopodobnie będzie niższa niż w przypadku bezpośredniego użycia bf16 lub fp8, ponieważ podczas treningu masz dodatkowe kwantyzowanie i dekwantyzowanie przed każdym gemm. Trening o niskiej precyzji (np. FP4) kwantyzuje zarówno wagi, jak i aktywacje i nie dekwantyzuje przed matmulami. Jeśli zostanie to zrobione prawidłowo, przepustowość powinna znacznie wzrosnąć. Cały sens polega na przyspieszeniu gemmów poprzez użycie niższej precyzji wejść.