Otra demostración del rendimiento del LLM en el dispositivo del iPhone 17 Pro Esta vez con Ling mini 2.0 de @TheInclusionAI, un modelo MoE de 16B con 1.4B de parámetros activos funcionando a ~120tk/s Gracias a @awnihannun por los quants de 2 bits MLX DWQ