Kolla batchgenerering i mlx-lm med GLM 4.7 på en M3 Ultra. 6-bitarsmodellen kör en batch om 4 med nästan dubbelt så hög genomströmning (~30 tok/s) som en enda generation.
Du kan också göra tensor-parallell generering med MLX:s JACCL-backend för att få en snabbare ökning med flera maskiner. Här är GLM 4.7 i 6-bitars som kör ett enda exempel på fyra maskiner i ~25 tok/s:
274