Vídeo divertido de @digitalix sobre como usar o novo back-end mlx.distributed para fazer inferência rápida de LLM com mlx-lm e @exolabs Também obrigado por explicar a diferença entre o antigo e o novo em termos simples - embora a escalabilidade deva ser ligeiramente sub-linear 😉