Consegui lote contínuo trabalhando com SSMs no mlx-lm. Aqui estão quatro agentes OpenCode rodando simultaneamente o Nemotron Nano da Nvidia em 64GB M4 Max. Esse é um bom modelo para máquinas menores, já que é MoE + atenção híbrida (cache pequeno).