Nemotron 3 Nano hoạt động tốt với mlx-lm trên M4 Max. Có thể là một mô hình tuyệt vời cho việc sử dụng cục bộ trên Mac: MoE + attention lai giúp nó nhanh ngay cả với ngữ cảnh rất dài. Tạo ra trong thời gian thực với mô hình 4-bit: