Meta только что выпустила MobileLLM-R1 модель для обработки данных на краю с менее чем 1 миллиардом параметров Увеличение производительности в 2–5 раз по сравнению с другими полностью открытыми моделями: MobileLLM-R1 достигает ~5× более высокой точности MATH по сравнению с Olmo-1.24B и ~2× по сравнению с SmolLM2-1.7B. Использует всего 1/10 токенов предварительного обучения по сравнению с Qwen: соответствует или превосходит точность Qwen3 по нескольким тестам на рассуждение, обучаясь всего на 4.2T токенов (всего 11.7% от 36T Qwen3).