Sjekk batchgenerering i mlx-lm med GLM 4.7 på en M3 Ultra. 6-bits modellen kjører en batch på 4 med nesten dobbelt så høy gjennomstrømning (~30 tok/sek) som en enkelt generasjon.
Du kan også gjøre tensor-parallell generering med MLXs JACCL-backend for å få en hastighetsøkning ved bruk av flere maskiner. Her er GLM 4.7 i 6-bit som kjører et enkelt eksemplar på fire maskiner med ~25 tok/s:
404