Nemotron 3 Nano fungerar bra med mlx-lm på en M4 Max. Det kan vara en utmärkt modell för lokal användning på Mac: MoE + hybriduppmärksamhet gör det snabbt även för mycket lång kontext. Genererar i realtid med 4-bitarsmodell: