Nemotron 3 Nano 在 M4 Max 上运行良好。 对于 Mac 的本地使用来说,这可能是一个很好的模型:MoE + 混合注意力使其即使在非常长的上下文中也能快速运行。 使用 4 位模型实时生成: