さらに高いスループットと低遅延を実現するには、バッチ生成+テンソルをmlx-lm+およびmlx.distributedと並列にする方法です。 ここでは、GLM 4.7を6ビットで、バッチサイズ4で4台のM3 Ultraで63 tok/sec(スループット)で生成しています: