Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Esto es lo que hemos estado coqueando durante los últimos 9 meses: ¡hacer que el entrenamiento de MoEs vaya ~2 veces más rápido y ~2 veces menos memoria! Resúmenes: - El MoE suele requerir más tiempo y memoria en los modelos modernos. Resulta que se puede reescribir matemáticamente el pase hacia atrás del MoE para reducir el mem de activación que necesitas almacenar en la delantera en ~2x, resultando en los mismos gradientes sin recomputación adicional de matmul. Me gusta mucho este resultado, ya que combina tanto conocimientos algorítmicos como de sistemas. - Analizar cuellos de botella en la capa MoE conduce a una estrategia natural de optimización: ¡reducir las lecturas/escrituras de mems tanto como sea posible! Reunir la entrada para tracción delantera y la gradación de salida para la tracción corporal puede a veces llevar tanto tiempo como los GEMM agrupados. Fusionamos la reunión con GEMM agrupado + acceso a meme superpuestos y calculamos para que toda la capa vaya ~2 veces más rápido. - Calcular top-k para enrutamiento experto puede llevar sorprendentemente tiempo, ~ ¡15-20% de toda la capa MoE! El top-k impl estándar usa el algoritmo radix top-k, ideal para k grandes pero subóptimo para k pequeño. Reescribimos top-k usando el algoritmo bitonic top-k, ¡y a veces es 20-30 veces más rápido que el top-k de pytorch! Todos los kernels principales están escritos en Cute-DSL, así que deberían ser fáciles de extender (e instalar :D). Los granos de tolva ya no existen, los de Blackwell casi están listos. Los modelos MoE solían ser el doble de eficientes en hardware para entrenar, ojalá Sonic-MOE cambie eso.

Populares

Ranking

Favoritas