在mlx-lm中成功實現了持續批次處理。 這裡有四個OpenCode代理同時在64GB M4 Max上運行Nvidia的Nemotron Nano。 這是一個適合較小機器的好模型,因為它是MoE + 混合注意力(小緩存)。