一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

為了更高的吞吐量和更低的延遲：批量生成 + tensor parallel 與 mlx-lm + 以及 mlx.distributed。這裡以 63 tok/sec（吞吐量）生成，使用 GLM 4.7，6 位元和批量大小 4，在 4 台 M3 Ultras 上進行：