Tengo el procesamiento continuo por lotes con SSMs en mlx-lm. Aquí tienes cuatro agentes OpenCode ejecutando simultáneamente el Nemotron Nano de Nvidia en un M4 Max de 64GB. Este es un buen modelo para máquinas pequeñas porque es MoE + atención híbrida (caché pequeña).