Nemotron 3 Nano fonctionne bien avec mlx-lm sur un M4 Max. Cela pourrait être un excellent modèle pour une utilisation locale sur Mac : MoE + attention hybride le rendent rapide même pour des contextes très longs. Génération en temps réel avec un modèle 4 bits :