Video thú vị từ @digitalix về việc sử dụng back-end mlx.distributed mới để thực hiện suy diễn LLM nhanh với mlx-lm và @exolabs Cũng cảm ơn vì đã giải thích sự khác biệt giữa cái cũ và cái mới một cách đơn giản - mặc dù việc mở rộng nên hơi dưới tuyến tính một chút 😉