DeepSeek-V3.2 pokazuje: - Chińskie chipy rosną: wsparcie Day-0 dla Huawei Ascend i Cambricon; - Kompilator ML: DeepSeek używa TileLang, co pozwala pisać w Pythonie → kompilować do zoptymalizowanych rdzeni na różnych sprzętach. Np. 80 linii Pythona może osiągnąć 95% wydajności FlashMLA (CUDA napisanego ręcznie). Pod maską TileLang znajduje się TVM, kompilator ML, nad którym pracowałem przez lata z wspaniałą społecznością open-source. W miarę jak krajobraz sprzętowy się różnicuje (GPU Nvidia, chińskie chipy i chipy skoncentrowane na wnioskowaniu), kompilatory ML znów będą błyszczeć.
Jeśli jesteś nowy w kompilatorach ML, gorąco polecam kurs MLC @tqchenml na CMU, zawiera filmy i kod: . Używa stosu TVM (IR na poziomie grafu: relax + IR na poziomie tensora: TensorIR) jako przykładów, ale ogólne pomysły mają zastosowanie do innych kompilatorów ML.
@tqchenml Wow
64,66K