For enda høyere gjennomstrømning og lavere latens: batchgenerering + tensor parallelt med mlx-lm + og mlx.distributed.
Her genererer den med 63 tok/s (gjennomstrømning) med GLM 4,7 i 6-bit og batchstørrelse 4 på 4 M3 Ultras:
Sjekk batchgenerering i mlx-lm med GLM 4.7 på en M3 Ultra.
6-bits modellen kjører en batch på 4 med nesten dobbelt så høy gjennomstrømning (~30 tok/sek) som en enkelt generasjon.