Nemotron 3 Nano roda bem com mlx-lm em um M4 Max. Pode ser um ótimo modelo para uso local no Mac: MoE + atenção híbrida tornam rápido mesmo para contextos muito longos. Gerando em tempo real com modelo de 4 bits: