iPhone 17 Pro 的设备内 LLM 性能的另一个演示 这次使用的是 @TheInclusionAI 的 Ling mini 2.0,一个拥有 16B MoE 模型和 1.4B 活跃参数,运行速度约为 ~120tk/s 感谢 @awnihannun 提供的 MLX DWQ 2-bit 量化