Outra demonstração do desempenho do LLM no dispositivo do iPhone 17 Pro Desta vez com o Ling mini 2.0 da @TheInclusionAI, um modelo MoE de 16B com 1.4B de parâmetros ativos funcionando a ~120tk/s Obrigado ao @awnihannun pelo MLX DWQ de quantização de 2 bits