Para un rendimiento aún mayor y menor latencia: generación por lotes + tensor paralelo con mlx-lm + y mlx.distributed. Aquí se genera a 63 tok/seg (throughput) con GLM 4.7 en 6 bits y tamaño de lote 4 en 4 M3 Ultras: