Pour un débit encore plus élevé et une latence plus faible : génération par lots + parallélisme tensoriel avec mlx-lm + et mlx.distributed. Ici, il génère à 63 tok/sec (débit) avec GLM 4.7 en 6 bits et une taille de lot de 4 sur 4 M3 Ultras :