DeepSeek-V3.2 mostra: - I chip cinesi stanno aumentando: supporto Day-0 per Huawei Ascend e Cambricon; - Compilatore ML: DeepSeek utilizza TileLang, permettendoti di scrivere Python → compilare in kernel ottimizzati su hardware diversi. Ad esempio, 80 righe di Python possono raggiungere il 95% delle prestazioni di FlashMLA (CUDA scritto a mano). Sotto il cofano di TileLang c'è TVM, un compilatore ML su cui ho lavorato per anni con la grande comunità open-source. Man mano che il panorama hardware si diversifica (GPU Nvidia, chip cinesi e chip focalizzati sull'inferenza), i compilatori ML risplenderanno di nuovo.
Se sei nuovo ai compilatori ML, ti consiglio vivamente il corso MLC di @tqchenml alla CMU, ha video e codice: . Utilizza il stack TVM (IR a livello di grafo: relax + IR a livello di tensore: TensorIR) come esempi, ma le idee generali si applicano ad altri compilatori ML.
@tqchenml Wow
80,25K