DeepSeek-V3.2 viser: - Kinesiske brikker øker: Dag-0-støtte for Huawei Ascend og Cambricon; - ML-kompilator: DeepSeek bruker TileLang, slik at du kan skrive Python → kompilere til optimaliserte kjerner på diverse maskinvare. For eksempel kan 80 linjer med Python nå 95 % av FlashMLAs (CUDA skrevet for hånd) ytelse. Under panseret til TileLang er TVM, en ML-kompilator jeg brukte år på å jobbe med med det store åpen kildekode-fellesskapet. Etter hvert som maskinvarelandskapet diversifiserer seg (Nvidia GPUer, kinesiske brikker og slutningsfokuserte brikker), vil ML-kompilatorer skinne igjen.
Hvis du er ny på ML-kompilatorer, anbefaler jeg på det sterkeste @tqchenml MLC-kurs ved CMU, det har videoer og kode: . Den bruker TVM-stabel (grafnivå IR: slapp av + tensornivå IR: TensorIR) som eksempler, men de generelle ideene gjelder for andre ML-kompilatorer.
@tqchenml wow
64,65K