For enda høyere gjennomstrømning og lavere latens: batchgenerering + tensor parallelt med mlx-lm + og mlx.distributed. Her genererer den med 63 tok/s (gjennomstrømning) med GLM 4,7 i 6-bit og batchstørrelse 4 på 4 M3 Ultras: