Nemotron 3 Nano berjalan dengan baik dengan mlx-lm pada M4 Max. Bisa menjadi model yang bagus untuk penggunaan lokal di Mac: MoE + perhatian hibrida membuatnya cepat bahkan untuk konteks yang sangat lama. Menghasilkan secara realtime dengan model 4-bit: