新的 1 兆參數 Kimi K2 思維模型在其原生格式下在 2 M3 Ultras 上運行良好 - 沒有質量損失! 該模型在 int4 上進行了量化感知訓練 (qat)。 在 mlx-lm 中,它以 15 個 token/秒的速度生成了約 3500 個 token。
它生成了一個完全功能的太空入侵者遊戲,毫無問題。它只使用了幾百個思考代幣,總共3500個,這相當不錯。
328.02K