DeepSeek-V3.2 menunjukkan: - Chip China meningkat: Dukungan Day-0 untuk Huawei Ascend & Cambricon; - Kompiler ML: DeepSeek menggunakan TileLang, memungkinkan Anda menulis → Python ke kernel yang dioptimalkan pada perangkat keras yang beragam. Misalnya, 80 baris Python dapat mencapai 95% dari kinerja FlashMLA (CUDA ditulis dengan tangan). Di bawah tenda TileLang adalah TVM, kompiler ML yang saya kerjakan selama bertahun-tahun dengan komunitas sumber terbuka yang hebat. Seiring dengan diversifikasi lanskap perangkat keras (GPU Nvidia, chip Cina, dan chip yang berfokus pada inferensi), kompiler ML akan bersinar lagi.
Jika Anda baru mengenal kompiler ML, saya sangat merekomendasikan @tqchenml Kursus MLC di CMU, memiliki video dan kode: . Ini menggunakan tumpukan TVM (IR tingkat grafik: santai + tingkat tensor IR: TensorIR) sebagai contoh, tetapi ide umum berlaku untuk kompiler ML lainnya.
@tqchenml Wow
80,25K