Một bản demo khác về hiệu suất LLM trên thiết bị của iPhone 17 Pro Lần này với Ling mini 2.0 của @TheInclusionAI, một mô hình MoE 16B với 1.4B tham số hoạt động đang chạy ở tốc độ ~120tk/s Cảm ơn @awnihannun vì MLX DWQ 2-bit quants