DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Une explication rapide de la différence entre l'entraînement conscient de la quantification (QAT), comme Kimi K2, et l'entraînement en basse précision (par exemple FP4). Voici une image de ce à quoi ressemble l'opération de propagation pour chacun. L'entraînement QAT est principalement une optimisation d'inférence pour réduire la latence (c'est-à-dire les tokens par seconde pour le décodage en petits lots). Le débit global est probablement inférieur à celui de l'utilisation directe de bf16 ou fp8, car pendant l'entraînement, vous avez une quantification + déquantification supplémentaires avant chaque gemm. L'entraînement en basse précision (par exemple FP4) quantifie à la fois les poids et les activations et ne déquantifie pas avant les matmuls. Si cela est fait correctement, le débit devrait augmenter considérablement. L'objectif est d'accélérer les gemms en utilisant des entrées de plus basse précision.

Meilleurs

Classement

Favoris