Pentru un debit și mai mare și latență mai mică: generare batch + tensor paralel cu mlx-lm + și mlx.distributed. Aici generează la 63 tok/sec (throughput) cu GLM 4.7 în 6-bit și dimensiunea lotului 4 pe 4 M3 Ultra: