Nemotron 3 Nano kjører fint med mlx-lm på en M4 Max. Kan være en flott modell for lokal bruk på Mac: MoE + hybrid attention gjør det raskt selv for veldig lang kontekst. Genererer i sanntid med 4-bits modell: