M3 UltraでGLM 4.7を使ったmlx-lmのバッチ生成をチェックしてみてください。 6ビットモデルは4個のバッチを、単一世代のほぼ2倍のスループット(~30 tok/sec)で実行します。
また、MLXのJACCLバックエンドでテンソル並列生成を行うことで、複数のマシンで高速化も可能です。 こちらはGLM 4.7の6ビットで、4台のマシンで1つの例を約25 tok/sで動作させた様子です:
297