Outra demonstração do desempenho LLM no dispositivo do iPhone 17 Pro Desta vez com o Ling mini 2.0 da @TheInclusionAI, um modelo MoE 16B com parâmetros ativos de 1,4B rodando a ~ 120tk / s Graças a @awnihannun para os quants MLX DWQ de 2 bits