新的 1 万亿参数 Kimi K2 思维模型在 2 个 M3 Ultra 上以其原生格式运行良好 - 没有质量损失! 该模型经过量化感知训练 (qat),使用 int4。 在 mlx-lm 中,它以管道并行处理生成了约 3500 个标记,速度为 15 个标记/秒:
它生成了一个完全功能的太空入侵者游戏,毫无问题。它只使用了几百个思考代币,总共3500个,这相当不错。
328.02K