Une autre démonstration des performances du LLM sur appareil de l'iPhone 17 Pro Cette fois avec Ling mini 2.0 par @TheInclusionAI, un modèle MoE de 16B avec 1,4B de paramètres actifs fonctionnant à ~120tk/s Merci à @awnihannun pour les quants 2 bits MLX DWQ