還有一些對CUDA後端的改進,包括: - 由@NasFilippova實現的NVFP4和MXFP8的量化-量化矩陣乘法 - 現在可以使用`pip install mlx[cuda13]`安裝x86和arm(例如DGX Spark) - 感謝@zcbenz和@angeloskath,LLM的預填充和訓練速度大幅提升