También algunas mejoras interesantes en el back-end de CUDA, incluyendo: - Matrices de multiplicación cuantizadas para NVFP4 y MXFP8 por @NasFilippova - Ahora puedes `pip install mlx[cuda13]` para x86 y arm (por ejemplo, DGX Spark) - Prefill y entrenamiento de LLM mucho más rápidos gracias a @zcbenz y @angeloskath