Nemotron 3 Nano funziona bene con mlx-lm su un M4 Max. Potrebbe essere un ottimo modello per uso locale su Mac: MoE + attenzione ibrida lo rendono veloce anche per contesti molto lunghi. Generazione in tempo reale con modello a 4 bit: