O DeepSeek-V3.2 mostra: - Os chips chineses estão a subir: suporte Day-0 para Huawei Ascend e Cambricon; - Compilador de ML: O DeepSeek utiliza o TileLang, permitindo que você escreva Python → compile para kernels otimizados em hardware diversificado. Por exemplo, 80 linhas de Python podem alcançar 95% do desempenho do FlashMLA (CUDA escrito à mão). Por trás do TileLang está o TVM, um compilador de ML no qual passei anos a trabalhar com a grande comunidade de código aberto. À medida que o panorama do hardware se diversifica (GPUs Nvidia, chips chineses e chips focados em inferência), os compiladores de ML brilharão novamente.
Se você é novo em compiladores de ML, recomendo muito o curso de MLC do @tqchenml na CMU, que tem vídeos e código: . Ele usa a pilha TVM (IR a nível de gráfico: relax + IR a nível de tensor: TensorIR) como exemplos, mas as ideias gerais se aplicam a outros compiladores de ML.
@tqchenml Uau
80,24K