DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Kolla batchgenerering i mlx-lm med GLM 4.7 på en M3 Ultra. 6-bitarsmodellen kör en batch om 4 med nästan dubbelt så hög genomströmning (~30 tok/s) som en enda generation.

Du kan också göra tensor-parallell generering med MLX:s JACCL-backend för att få en snabbare ökning med flera maskiner. Här är GLM 4.7 i 6-bitars som kör ett enda exempel på fyra maskiner i ~25 tok/s:

274

Topp

Rankning

Favoriter