Nemotron 3 Nano läuft gut mit mlx-lm auf einem M4 Max. Könnte ein großartiges Modell für die lokale Nutzung auf dem Mac sein: MoE + hybride Aufmerksamkeit machen es schnell, selbst bei sehr langem Kontext. Echtzeit-Generierung mit 4-Bit-Modell: