Das Ausführen von vier gleichzeitigen OpenCode-Agenten funktioniert gut mit mlx_lm.server kontinuierlichem Batching und MiniMax M2.1 auf einem M3 Ultra:
Minimax M2.1 (@MiniMax__AI) mit OpenCode (@opencode) und mlx_lm.server läuft.
Funktioniert ziemlich gut auf einem M3 Ultra. Sobald der KV-Cache warm ist, ist die Verarbeitung der Eingabeaufforderung ziemlich schnell. Und die Token-Generierung ist sehr schnell.