DeepSeek-V3.2 zeigt: - Chinesische Chips steigen: Day-0 Unterstützung für Huawei Ascend & Cambricon; - ML-Compiler: DeepSeek verwendet TileLang, mit dem Sie Python schreiben → kompilieren zu optimierten Kernen auf verschiedenen Hardware. Zum Beispiel können 80 Zeilen Python 95 % der Leistung von FlashMLA (manuell in CUDA geschrieben) erreichen. Unter der Haube von TileLang steckt TVM, ein ML-Compiler, an dem ich jahrelang mit der großartigen Open-Source-Community gearbeitet habe. Da sich die Hardware-Landschaft diversifiziert (Nvidia GPUs, chinesische Chips und auf Inferenz fokussierte Chips), werden ML-Compiler wieder glänzen.
Wenn Sie neu bei ML-Compilern sind, kann ich @tqchenmls MLC-Kurs an der CMU sehr empfehlen, er enthält Videos und Code: . Er verwendet den TVM-Stack (Graph-Level-IR: relax + Tensor-Level-IR: TensorIR) als Beispiele, aber die allgemeinen Ideen gelten auch für andere ML-Compiler.
@tqchenml Wow
64,66K