Daha yüksek veri verimliliği ve daha düşük gecikme için: parti üretimi + mlx-lm + ve mlx.distributed ile paralel tensör. Burada GLM 4.7 ile 6-bit ve 4 M3 Ultra'da batch boyutu 4 ile 63 tok/s (veri püresi) ile üretiliyor: