LFM2.5 hat eine ziemlich schnelle Vorbefüllung auf einem M5-Laptop mit mlx-lm. Das Vollpräzisionsmodell verarbeitet einen 28k-Token-Prompt in < 6 Sekunden (>5k tok/s).
Könnte ein sehr schönes Modell für kleine Geräte mit neuronalen Beschleunigern sein.
Heute veröffentlichen wir LFM2.5, unsere leistungsfähigste Familie von kleinen, auf Geräten basierenden Grundmodellen.
Es wurde entwickelt, um zuverlässige, auf Geräten basierende agentische Anwendungen zu unterstützen: höhere Qualität, geringere Latenz und breitere Modalisierungsunterstützung in der ~1B Parameterklasse.
> LFM2.5 basiert auf unserer LFM2 geräteoptimierten hybriden Architektur
> Vortraining skaliert von 10T → 28T Tokens
> Erweiterte Verstärkungslernen-Nachschulung
> Höhere Grenzen für die Befolgung von Anweisungen
🧵