DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Una rápida explicación de la diferencia entre el entrenamiento consciente de cuantización (QAT), como Kimi K2, y el entrenamiento de baja precisión (digamos FP4). Aquí hay una imagen de cómo se ve la operación hacia adelante para cada uno. El entrenamiento QAT es principalmente una optimización de inferencia para reducir la latencia (es decir, tokens por segundo para la decodificación de pequeños lotes). El rendimiento general probablemente sea menor que el uso de bf16 o fp8 directamente, ya que durante el entrenamiento tienes una cuantización + de cuantización extra antes de cada gemm. El entrenamiento de baja precisión (por ejemplo, FP4) cuantiza tanto los pesos como las activaciones y no descuantiza antes de las multiplicaciones de matrices. Si se hace correctamente, el rendimiento debería aumentar mucho. El objetivo principal es acelerar los gemms utilizando entradas de menor precisión.

Parte superior

Clasificación

Favoritos