LFM2.5 имеет довольно быструю предварительную настройку на ноутбуке M5 с mlx-lm. Модель полной точности обрабатывает запрос на 28k токенов менее чем за 6 секунд (>5k ток/с). Это может быть очень хорошая модель для небольших устройств с нейронными ускорителями.