DeepSeek-V3.2 ukazuje: - Čínské čipy rostou: Podpora Day-0 pro Huawei Ascend & Cambricon; - Kompilátor ML: DeepSeek používá TileLang, který vám umožňuje psát Python → kompilovat do optimalizovaných jader na různém hardwaru. Např. 80 řádků Pythonu může dosáhnout 95 % výkonu FlashMLA (CUDA napsaného ručně). Pod kapotou TileLang je TVM, kompilátor ML, na kterém jsem strávil roky prací se skvělou open-source komunitou. S tím, jak se hardwarové prostředí diverzifikuje (GPU Nvidia, čínské čipy a čipy zaměřené na inferenci), budou kompilátory ML opět zářit.
Pokud s kompilátory ML začínáte, vřele doporučuji @tqchenml kurz MLC na CMU, má videa a kód: . Jako příklady používá zásobník TVM (IR na úrovni grafu: relax + IR na úrovni tenzoru: TensorIR), ale obecné nápady platí i pro jiné kompilátory ML.
@tqchenml páni
64,65K