Eine weitere Demo der On-Device-LLM-Leistung des iPhone 17 Pro Diesmal mit Ling mini 2.0 von @TheInclusionAI, einem 16B MoE-Modell mit 1,4B aktiven Parametern, das mit ~120tk/s läuft Danke an @awnihannun für die MLX DWQ 2-Bit-Quantisierungen