DeepSeek-V3.2 顯示: - 中國晶片正在上升:對華為 Ascend 和寒武紀的 Day-0 支持; - ML 編譯器:DeepSeek 使用 TileLang,讓你可以將 Python 編寫的程式碼編譯為在多種硬體上優化的內核。例如,80 行 Python 可以達到 FlashMLA(手動編寫的 CUDA)的 95% 性能。 TileLang 的底層是 TVM,這是一個我花了多年時間與偉大的開源社區一起開發的 ML 編譯器。隨著硬體環境的多樣化(Nvidia GPU、中國晶片和以推理為重點的晶片),ML 編譯器將再次閃耀。
如果你對機器學習編譯器不熟悉,我強烈推薦@tqchenml在CMU的MLC課程,裡面有視頻和代碼:。 它使用TVM堆疊(圖層IR:relax + 張量層IR:TensorIR)作為示例,但一般概念適用於其他機器學習編譯器。
@tqchenml 哇
64.65K