LFM2.5 在搭載 mlx-lm 的 M5 筆記型電腦上具有相當快的預填充速度。完整精度模型在 < 6 秒內處理 28k 令牌提示 (>5k tok/s)。 這可能是一個非常適合搭載神經加速器的小型設備的模型。