在配备mlx-lm的M5笔记本电脑上,LFM2.5的预填充速度相当快。全精度模型在<6秒内处理28k令牌的提示(>5k tok/s)。 这可能是一个非常适合带有神经加速器的小型设备的模型。