Juga beberapa peningkatan bagus pada back-end CUDA termasuk:
- Kuantisasi-kuantisasi matmul untuk NVFP4 dan MXFP8 dengan @NasFilippova
- Anda sekarang dapat 'pip install mlx[cuda13]' untuk x86 dan arm (misalnya DGX Spark)
- Prefill dan pelatihan LLM yang jauh lebih cepat berkat @zcbenz dan @angeloskath
MLX terbaru keluar!
Dan memiliki back-end terdistribusi (JACCL) baru yang menggunakan RDMA melalui TB5 untuk komunikasi latensi super rendah di beberapa Mac.
Terima kasih kepada @angeloskath