Nemotron 3 Nano merge bine cu mlx-lm pe un M4 Max. Ar putea fi un model excelent pentru utilizare locală pe Mac: MoE + atenție hibridă îl fac rapid chiar și pentru context foarte lung. Generarea în timp real cu modelul pe 4 biți: