Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esto es lo que hemos estado coqueando durante los últimos 9 meses: ¡hacer que el entrenamiento de MoEs vaya ~2 veces más rápido y ~2 veces menos memoria! Resúmenes:
- El MoE suele requerir más tiempo y memoria en los modelos modernos. Resulta que se puede reescribir matemáticamente el pase hacia atrás del MoE para reducir el mem de activación que necesitas almacenar en la delantera en ~2x, resultando en los mismos gradientes sin recomputación adicional de matmul. Me gusta mucho este resultado, ya que combina tanto conocimientos algorítmicos como de sistemas.
- Analizar cuellos de botella en la capa MoE conduce a una estrategia natural de optimización: ¡reducir las lecturas/escrituras de mems tanto como sea posible! Reunir la entrada para tracción delantera y la gradación de salida para la tracción corporal puede a veces llevar tanto tiempo como los GEMM agrupados. Fusionamos la reunión con GEMM agrupado + acceso a meme superpuestos y calculamos para que toda la capa vaya ~2 veces más rápido.
- Calcular top-k para enrutamiento experto puede llevar sorprendentemente tiempo, ~ ¡15-20% de toda la capa MoE! El top-k impl estándar usa el algoritmo radix top-k, ideal para k grandes pero subóptimo para k pequeño. Reescribimos top-k usando el algoritmo bitonic top-k, ¡y a veces es 20-30 veces más rápido que el top-k de pytorch!
Todos los kernels principales están escritos en Cute-DSL, así que deberían ser fáciles de extender (e instalar :D). Los granos de tolva ya no existen, los de Blackwell casi están listos. Los modelos MoE solían ser el doble de eficientes en hardware para entrenar, ojalá Sonic-MOE cambie eso.
Populares
Ranking
Favoritas
