Еще одна демонстрация производительности LLM на устройстве iPhone 17 Pro На этот раз с Ling mini 2.0 от @TheInclusionAI, модели MoE на 16B с 1.4B активными параметрами, работающей на скорости ~120tk/s Спасибо @awnihannun за 2-битные кванты MLX DWQ