DeepSeek-V3.2 visar: - Kinesiska chips ökar: Dag-0-stöd för Huawei Ascend och Cambricon; - ML-kompilator: DeepSeek använder TileLang, vilket gör att du kan skriva Python → kompilera till optimerade kärnor på olika hårdvara. T.ex. kan 80 rader Python nå 95 % av FlashMLA:s (CUDA skrivet för hand) prestanda. Under huven på TileLang finns TVM, en ML-kompilator som jag tillbringade flera år med att arbeta med med den stora öppen källkodsgemenskapen. I takt med att hårdvarulandskapet diversifieras (Nvidia GPU:er, kinesiska chips och inferensfokuserade chips) kommer ML-kompilatorer att lysa igen.
Om du är ny på ML-kompilatorer rekommenderar jag starkt @tqchenml MLC-kurs på CMU, den har videor och kod: . Den använder TVM-stack (grafnivå IR: relax + tensornivå IR: TensorIR) som exempel, men de allmänna idéerna gäller för andra ML-kompilatorer.
@tqchenml Wow
64,66K