mlx-lm devient un petit cadre d'inférence assez puissant ! La dernière version ajoute l'inférence LLM en parallèle de tenseurs pour être utilisée avec le nouveau back-end JACCL à faible latence dans MLX (merci @angeloskath). Mis à jour également pour prendre en charge Transformers V5 !