Để có thông lượng cao hơn và độ trễ thấp hơn: tạo lô + song song tensor với mlx-lm + và mlx.distributed. Ở đây nó đang tạo ra với tốc độ 63 tok/giây (thông lượng) với GLM 4.7 ở độ sâu 6-bit và kích thước lô 4 trên 4 M3 Ultras: