DeepSeek-V3.2 показывает: - Китайские чипы растут: поддержка Day-0 для Huawei Ascend и Cambricon; - Компилятор ML: DeepSeek использует TileLang, позволяя вам писать на Python → компилировать в оптимизированные ядра на различных аппаратных средствах. Например, 80 строк Python могут достичь 95% производительности FlashMLA (CUDA, написанного вручную). Под капотом TileLang находится TVM, компилятор ML, над которым я работал много лет с великой открытой сообществом. Поскольку аппаратный ландшафт диверсифицируется (графические процессоры Nvidia, китайские чипы и чипы, ориентированные на вывод), компиляторы ML снова засияют.
Если вы новичок в ML компиляторах, я настоятельно рекомендую курс MLC от @tqchenml в CMU, в нем есть видео и код: . Он использует стек TVM (графовый уровень IR: relax + тензорный уровень IR: TensorIR) в качестве примеров, но общие идеи применимы и к другим ML компиляторам.
@tqchenml Вау
80,24K