Nemotron 3 Nano draait mooi met mlx-lm op een M4 Max. Kan een geweldig model zijn voor lokaal gebruik op Mac: MoE + hybride aandacht maken het snel, zelfs voor zeer lange context. Genereren in realtime met 4-bits model: