Pro ještě vyšší propustnost a nižší latenci: dávková generace + tenzorová paralelní s mlx-lm + a mlx.distributed.
Zde generuje rychlostí 63 tok/s (propustnost) s GLM 4.7 v 6bitovém režimu a velikostí dávky 4 na 4 M3 Ultra:
Zkontrolujte dávkovou generaci v mlx-lm s GLM 4.7 na M3 Ultra.
6bitový model spustí várku 4 bitů téměř dvojnásobnou propustností (~30 tok/s) oproti jedné generaci.