Nemotron 3 Nano добре працює з mlx-lm на M4 Max. Може бути чудовою моделлю для локального використання на Mac: MoE + гібридна увага робить процес швидким навіть для дуже довгого контексту. Генерація в реальному часі за допомогою 4-бітної моделі: