Nemotron 3 Nano działa płynnie z mlx-lm na M4 Max. Może to być świetny model do użytku lokalnego na Macu: MoE + hybrydowa uwaga sprawiają, że jest szybki nawet przy bardzo długim kontekście. Generowanie w czasie rzeczywistym z modelem 4-bitowym: