DeepSeek-V3.2 muestra: - Los chips chinos están en aumento: soporte Day-0 para Huawei Ascend y Cambricon; - Compilador de ML: DeepSeek utiliza TileLang, lo que te permite escribir Python → compilar a núcleos optimizados en hardware diverso. Por ejemplo, 80 líneas de Python pueden alcanzar el 95% del rendimiento de FlashMLA (CUDA escrito a mano). Bajo el capó de TileLang está TVM, un compilador de ML en el que pasé años trabajando con la gran comunidad de código abierto. A medida que el panorama del hardware se diversifica (GPUs de Nvidia, chips chinos y chips enfocados en inferencia), los compiladores de ML volverán a brillar.
Si eres nuevo en los compiladores de ML, te recomiendo encarecidamente el curso de MLC de @tqchenml en CMU, tiene videos y código: . Utiliza la pila de TVM (IR a nivel de gráfico: relax + IR a nivel de tensor: TensorIR) como ejemplos, pero las ideas generales se aplican a otros compiladores de ML.
@tqchenml Wow
64,65K