DeepSeek-V3.2 toont: - Chinese chips stijgen: Day-0 ondersteuning voor Huawei Ascend & Cambricon; - ML-compiler: DeepSeek gebruikt TileLang, waarmee je Python kunt schrijven → compileren naar geoptimaliseerde kernels op diverse hardware. Bijv., 80 regels Python kunnen 95% van de prestaties van FlashMLA (CUDA met de hand geschreven) bereiken. Onder de motorkap van TileLang ligt TVM, een ML-compiler waar ik jaren aan heb gewerkt met de geweldige open-source gemeenschap. Naarmate het hardwarelandschap diversifieert (Nvidia GPU's, Chinese chips en inference-georiënteerde chips), zullen ML-compilers opnieuw schitteren.
Als je nieuw bent met ML-compilers, raad ik ten zeerste de MLC-cursus van @tqchenml aan aan de CMU, het heeft video's en code: . Het gebruikt de TVM-stack (grafiekniveau IR: relax + tensor niveau IR: TensorIR) als voorbeelden, maar de algemene ideeën zijn van toepassing op andere ML-compilers.
@tqchenml Wow
80,24K