Cũng có một số cải tiến tốt cho back-end CUDA bao gồm: - Quantize-quantize matmuls cho NVFP4 và MXFP8 bởi @NasFilippova - Bây giờ bạn có thể `pip install mlx[cuda13]` cho x86 và arm (ví dụ: DGX Spark) - LLM prefill và đào tạo nhanh hơn nhiều nhờ @zcbenz và @angeloskath