DeepSeek-V3.2 は以下を示します。 - 中国のチップが台頭している: Huawei Ascend と Cambricon の Day-0 サポート。 - ML コンパイラ: DeepSeek は TileLang を使用しているため、Python を記述→、さまざまなハードウェア上で最適化されたカーネルにコンパイルできます。たとえば、80行のPythonは、FlashMLA(手書きのCUDA)のパフォーマンスの95%に達することができます。 TileLangの内部には、私が素晴らしいオープンソースコミュニティと何年もかけて取り組んできたMLコンパイラであるTVMがあります。ハードウェア環境が多様化するにつれて (Nvidia GPU、中国のチップ、推論に重点を置いたチップ)、ML コンパイラが再び輝くでしょう。
MLコンパイラを初めて使用する場合は、強くお勧めします CMUのMLCコース@tqchenml、ビデオとコードがあります。 例として TVM スタック (グラフ レベル IR: relax + テンソル レベル IR: TensorIR) を使用していますが、一般的な考え方は他の ML コンパイラにも当てはまります。
@tqchenml うわー
64.66K