Nopea selitys kvantisointitietoisen harjoittelun (QAT), kuten Kimi K2, ja matalan tarkkuuden (esimerkiksi FP4) koulutuksen eroista. Tässä on kuva siitä, miltä kunkin hyökkäysoperaatio näyttää. QAT-koulutus on enimmäkseen päättelyn optimointia latenssin vähentämiseksi (eli tokeneita sekunnissa pienten erien dekoodauksessa). Kokonaissuorituskyky on todennäköisesti pienempi kuin bf16:n tai fp8:n käyttäminen suoraan, koska harjoittelun aikana sinulla on ylimääräinen kvantisoi+dekvantisoi ennen jokaista gemm:ää. Matalan tarkkuuden harjoittelu (esim. FP4) kvantisoi sekä painot että aktivaatiot, eikä dekvantisoi ennen mattoja. Jos se tehdään oikein, suorituskyvyn pitäisi kasvaa paljon. Koko tarkoitus on kiihdyttää gemmejä käyttämällä pienempiä tarkkuuksia.