还有一些对CUDA后端的不错改进,包括: - @NasFilippova 为NVFP4和MXFP8实现的量化-量化矩阵乘法 - 现在可以通过`pip install mlx[cuda13]`在x86和arm(例如DGX Spark)上安装 - 感谢@zcbenz和@angeloskath,LLM的预填充和训练速度大幅提升