Für noch höhere Durchsatzraten und geringere Latenz: Batch-Generierung + Tensorparallelität mit mlx-lm + und mlx.distributed. Hier werden 63 Tok/Sek (Durchsatz) mit GLM 4.7 in 6-Bit und einer Batch-Größe von 4 auf 4 M3 Ultras generiert: