Nemotron 3 Nano funciona bem com mlx-lm num M4 Max. Pode ser um ótimo modelo para uso local no Mac: MoE + atenção híbrida tornam-no rápido mesmo para contextos muito longos. Gerando em tempo real com modelo de 4 bits: