Zkontrolujte dávkovou generaci v mlx-lm s GLM 4.7 na M3 Ultra. 6bitový model spustí várku 4 bitů téměř dvojnásobnou propustností (~30 tok/s) oproti jedné generaci.
Můžete také generovat tenzor-paralelní generování pomocí JACCL backendu MLX, abyste dosáhli zrychlení pomocí více strojů. Zde je GLM 4.7 v 6bitovém režimu, který běží na jednom příkladu na čtyřech strojích rychlostí ~25 tok/s:
395