Một giải thích nhanh về sự khác biệt giữa đào tạo nhận thức lượng tử (QAT), như Kimi K2, và đào tạo độ chính xác thấp (ví dụ FP4). Đây là một bức tranh về cách hoạt động của phép toán tiến về phía trước cho mỗi loại. Đào tạo QAT chủ yếu là một tối ưu hóa suy diễn để giảm độ trễ (tức là số token trên giây cho việc giải mã theo lô nhỏ). Tổng thông lượng có thể thấp hơn so với việc sử dụng bf16 hoặc fp8 trực tiếp vì trong quá trình đào tạo bạn có thêm một bước lượng tử hóa + giải lượng tử trước mỗi phép nhân ma trận. Đào tạo độ chính xác thấp (ví dụ FP4) lượng tử hóa cả trọng số và kích hoạt và không giải lượng tử trước các phép nhân ma trận. Nếu được thực hiện đúng, thông lượng nên tăng lên rất nhiều. Mục đích chính là tăng tốc các phép nhân ma trận bằng cách sử dụng đầu vào có độ chính xác thấp hơn.