DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Consulta la generación de lotes en mlx-lm con GLM 4.7 en un M3 Ultra. El modelo de 6 bits ejecuta un lote de 4 a casi el doble del rendimiento (~30 tok/seg) de una sola generación.

También puedes hacer generación en paralelo de tensores con el back-end JACCL de MLX para obtener una aceleración utilizando múltiples máquinas. Aquí está el GLM 4.7 en 6 bits ejecutando un solo ejemplo en cuatro máquinas a ~25 tok/s:

276

Parte superior

Clasificación

Favoritos