在 2 台 512GB M3 Ultra Mac Studios 上運行完整的 GLM 4.7 (8-bit) 使用 @exolabs 的 MLX RDMA 後端以 19.8 tok/sec 的速度運行 (感謝 @awnihannun) 及張量並行