Para un rendimiento aún mayor y menor latencia: generación por lotes + paralelismo de tensores con mlx-lm + y mlx.distributed. Aquí se está generando a 63 tok/seg (rendimiento) con GLM 4.7 en 6 bits y tamaño de lote 4 en 4 M3 Ultras: