Nemotron 3 Nano, M4 Max'te mlx-lm ile gayet iyi çalışıyor. Mac'te yerel kullanım için harika bir model olabilir: MoE + hibrit dikkat çok uzun bağlamda bile hızlı olmasını sağlar. 4-bit modelle gerçek zamanlı üretim yapma: