Перевірте пакетну генерацію в mlx-lm з GLM 4.7 на M3 Ultra. 6-бітна модель працює з партії з 4 з майже вдвічі більшою пропускною здатністю (~30 ток/сек) за одне покоління.
Також можна зробити тензорно-паралельну генерацію за допомогою бекенду JACCL від MLX, щоб отримати прискорення з використанням кількох машин. Ось GLM 4.7 у 6-бітному режимі, який запускає один екземпляр на чотирьох машинах зі швидкістю ~25 tok/s:
264