O mlx-LM está se tornando um pequeno framework de inferência bastante poderoso! A versão mais recente adiciona inferência de LLM tensor-paralelo para uso com o novo back-end JACCL de baixa latência no MLX (h/t @angeloskath). Também atualizado para suportar Transformers V5!