MLX-LMM devine un mic cadru de inferență destul de puternic! Ultima versiune adaugă inferență tensor-paralelă LLM pentru utilizare cu noul back-end JACCL cu latență redusă în MLX (h/t @angeloskath). De asemenea, a fost actualizat pentru a suporta Transformers V5!