mlx-lm está a tornar-se uma poderosa pequena estrutura de inferência! A última versão adiciona inferência LLM em tensor-paralelo para uso com o novo back-end de baixa latência JACCL no MLX (h/t @angeloskath). Também atualizado para suportar Transformers V5!