热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek-V3.2 显示:
- 中国芯片正在上涨:对华为 Ascend 和寒武纪的 Day-0 支持;
- ML 编译器:DeepSeek 使用 TileLang,让你可以将 Python 编写的代码编译为在多种硬件上优化的内核。例如,80 行 Python 代码可以达到 FlashMLA(手动编写的 CUDA)的 95% 性能。
TileLang 的底层是 TVM,这是我与伟大的开源社区一起花费多年时间开发的 ML 编译器。随着硬件环境的多样化(Nvidia GPU、中国芯片和以推理为重点的芯片),ML 编译器将再次闪耀。

如果你是 ML 编译器的新手,我强烈推荐 @tqchenml 在 CMU 的 MLC 课程,它有视频和代码:。
它使用 TVM 堆栈(图级 IR:relax + 张量级 IR:TensorIR)作为示例,但一般思想适用于其他 ML 编译器。
@tqchenml 哇

64.65K
热门
排行
收藏