Eine kurze Erklärung des Unterschieds zwischen quantisierungsbewusstem Training (QAT), wie Kimi K2, und Training mit niedriger Präzision (zum Beispiel FP4). Hier ist ein Bild, wie der Vorwärtsvorgang für jedes aussieht. QAT-Training ist hauptsächlich eine Optimierung für die Inferenz, um die Latenz zu reduzieren (d.h. Tokens pro Sekunde für das Decodieren kleiner Chargen). Die Gesamtleistung ist wahrscheinlich niedriger als bei der direkten Verwendung von bf16 oder fp8, da während des Trainings eine zusätzliche Quantisierung + Dequantisierung vor jedem gemm erfolgt. Training mit niedriger Präzision (z.B. FP4) quantisiert sowohl Gewichte als auch Aktivierungen und dequantisiert nicht vor den Matrixmultiplikationen. Wenn es richtig gemacht wird, sollte die Durchsatzrate erheblich steigen. Der ganze Punkt ist, die gemms durch die Verwendung von Eingaben mit niedrigerer Präzision zu beschleunigen.