Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Una explicación rápida de la diferencia entre el entrenamiento consciente de la cuantificación (QAT), como Kimi K2, y el entrenamiento de baja precisión (digamos FP4). Aquí hay una imagen de cómo se ve la operación hacia adelante para cada uno. El entrenamiento QAT es principalmente una optimización de inferencia para reducir la latencia (es decir, tokens por segundo para la decodificación de lotes pequeños). Es probable que el rendimiento general sea menor que el uso de bf16 o fp8 directamente, ya que durante el entrenamiento tiene una cuantización + descuantificación adicional antes de cada gema. El entrenamiento de baja precisión (por ejemplo, FP4) cuantifica tanto los pesos como las activaciones y no descuantifica antes de los matmuls. Si se hace correctamente, el rendimiento debería aumentar mucho. El objetivo es acelerar los gemms mediante el uso de entradas de menor precisión.

Populares

Ranking

Favoritas