Consulta la generación de lotes en mlx-lm con GLM 4.7 en un M3 Ultra. El modelo de 6 bits ejecuta un lote de 4 a casi el doble del rendimiento (~30 tok/seg) de una sola generación.
También puedes hacer generación en paralelo de tensores con el back-end JACCL de MLX para obtener una aceleración utilizando múltiples máquinas. Aquí está el GLM 4.7 en 6 bits ejecutando un solo ejemplo en cuatro máquinas a ~25 tok/s:
276