Para um throughput ainda mais alto e menor latência: geração em lote + paralelismo de tensores com mlx-lm + e mlx.distributed. Aqui está a geração a 63 tok/seg (throughput) com GLM 4.7 em 6 bits e tamanho de lote 4 em 4 M3 Ultras: