Nemotron 3 Nano běží dobře s mlx-lm na M4 Max. Mohl by to být skvělý model pro lokální použití na Macu: MoE + hybridní pozornost, udělat to rychlé i pro velmi dlouhý kontext. Generování v reálném čase pomocí 4bitového modelu: