O DeepSeek-V3.2 mostra: - Os chips chineses estão subindo: suporte Day-0 para Huawei Ascend & Cambricon; - Compilador de ML: o DeepSeek usa o TileLang, permitindo que você escreva Python → compile para kernels otimizados em diversos hardwares. Por exemplo, 80 linhas de Python podem atingir 95% do desempenho do FlashMLA (CUDA escrito à mão). Sob o capô do TileLang está o TVM, um compilador de ML no qual passei anos trabalhando com a grande comunidade de código aberto. À medida que o cenário de hardware se diversifica (GPUs Nvidia, chips chineses e chips focados em inferência), os compiladores de ML brilharão novamente.
Se você é novo em compiladores de ML, eu recomendo fortemente @tqchenml curso MLC da CMU, tem vídeos e código: . Ele está usando a pilha TVM (nível gráfico IR: relax + tensor nível IR: TensorIR) como exemplos, mas as ideias gerais se aplicam a outros compiladores de ML.
@tqchenml Uau
64,65K