DeepSeek-V3.2 muestra: - Los chips chinos están subiendo: soporte de día 0 para Huawei Ascend y Cambricon; - Compilador de ML: DeepSeek usa TileLang, lo que le permite escribir Python → compilar en kernels optimizados en hardware diverso. Por ejemplo, 80 líneas de Python pueden alcanzar el 95% del rendimiento de FlashMLA (CUDA escrito a mano). Bajo el capó de TileLang está TVM, un compilador de ML en el que pasé años trabajando con la gran comunidad de código abierto. A medida que el panorama del hardware se diversifique (GPU Nvidia, chips chinos y chips centrados en la inferencia), los compiladores de ML volverán a brillar.
Si es nuevo en los compiladores de ML, lo recomiendo encarecidamente @tqchenml curso de MLC en CMU, tiene videos y código: . Está usando la pila TVM (nivel de gráfico IR: relax + nivel de tensor IR: TensorIR) como ejemplos, pero las ideas generales se aplican a otros compiladores de ML.
@tqchenml Guau
64.66K