Nemotron 3 Nano хорошо работает с mlx-lm на M4 Max. Это может быть отличная модель для локального использования на Mac: MoE + гибкое внимание делают её быстрой даже для очень длинного контекста. Генерация в реальном времени с 4-битной моделью: