iPhone 17 Pro 的設備內 LLM 性能的另一個演示 這次使用的是 @TheInclusionAI 的 Ling mini 2.0,一個擁有 16B MoE 模型和 1.4B 活躍參數,運行速度約為 ~120tk/s 感謝 @awnihannun 提供的 MLX DWQ 2-bit 量化