為了更高的吞吐量和更低的延遲:批量生成 + tensor parallel 與 mlx-lm + 以及 mlx.distributed。 這裡以 63 tok/sec(吞吐量)生成,使用 GLM 4.7,6 位元和批量大小 4,在 4 台 M3 Ultras 上進行: