在單個 M3 Ultra 上運行 Ring 1T 推理模型,使用 mlx-lm。 它的權重量化為 3.5 位元。使用了 440GB,生成了約 6k 令牌,速度為 18.2 令牌/秒。 在家中越來越接近 GPT-5。
這是它生成的太空入侵者遊戲:
48.67K