Nemotron 3 Nano berjalan dengan baik dengan mlx-lm pada M4 Max.
Bisa menjadi model yang bagus untuk penggunaan lokal di Mac: MoE + perhatian hibrida membuatnya cepat bahkan untuk konteks yang sangat lama.
Menghasilkan secara realtime dengan model 4-bit:
PSA untuk model Nemotron baru dari Nvidia:
Indeks ahli dan pemilihan skor persis sama dengan DeepSeek v3 dengan satu perbedaan halus (lihat gambar kode).
Itu masih menghasilkan teks yang layak secara kualitatif tanpa perubahan yang membuatnya semakin sulit untuk men-debug.