El Nemotron 3 Nano funciona bien con mlx-lm en un M4 Max. Podría ser un gran modelo para uso local en Mac: MoE + atención híbrida lo hacen rápido incluso para contextos muy largos. Generación en tiempo real con un modelo de 4 bits: