Otra demostración del rendimiento de LLM en el dispositivo del iPhone 17 Pro Esta vez con Ling mini 2.0 de @TheInclusionAI, un modelo MoE de 16B con parámetros activos de 1.4B que funcionan a ~ 120 tk / s Gracias a @awnihannun para los cuantos MLX DWQ de 2 bits