DApp Store | Centrum Web3 pro události a hry

Populární témata

Zkontrolujte dávkovou generaci v mlx-lm s GLM 4.7 na M3 Ultra. 6bitový model spustí várku 4 bitů téměř dvojnásobnou propustností (~30 tok/s) oproti jedné generaci.

Můžete také generovat tenzor-paralelní generování pomocí JACCL backendu MLX, abyste dosáhli zrychlení pomocí více strojů. Zde je GLM 4.7 v 6bitovém režimu, který běží na jednom příkladu na čtyřech strojích rychlostí ~25 tok/s:

395

Top

Hodnocení

Oblíbené