DeepSeek-V3.2 показує: - Китайські чіпи дорожчають: підтримка Day-0 для Huawei Ascend & Cambricon; - Компілятор машинного навчання: DeepSeek використовує TileLang, що дозволяє вам писати Python → компілювати в оптимізовані ядра на різноманітному обладнанні. Наприклад, 80 рядків Python можуть досягати 95% продуктивності FlashMLA (CUDA, написана від руки). Під капотом TileLang знаходиться TVM, компілятор ML, над яким я провів роки, працюючи з великою спільнотою з відкритим вихідним кодом. У міру того, як апаратний ландшафт урізноманітнюється (графічні процесори Nvidia, китайські чіпи та чіпи, орієнтовані на висновки), компілятори ML знову сяятимуть.
Якщо ви новачок у компіляторах ML, я настійно рекомендую @tqchenml курс MLC в КМУ, в ньому є відео та код: . Він використовує стек TVM (рівень графіка IR: relax + tensor level IR: TensorIR) як приклади, але загальні ідеї застосовні до інших компіляторів ML.
@tqchenml Нічого собі
64,66K