Дослідження NVIDIA щойно зробили LLM у 53 рази швидшими. 🤯 Уявіть, що ви скорочуєте бюджет висновків штучного інтелекту на 98%. Цей прорив не вимагає навчання новій моделі з нуля; він оновлює ваші існуючі для гіпершвидкості, відповідаючи або перевершуючи точність SOTA. Ось як це працює: Ця методика отримала назву Post Neural Architecture Search (PostNAS). Це революційний процес модернізації попередньо навчених моделей. Заморожування знань: Він починається з потужної моделі (наприклад, Qwen2.5) і блокує свої основні шари MLP, зберігаючи свій інтелект. Хірургічна заміна: Потім він використовує апаратно-орієнтований пошук для заміни більшості повільних, O(n²) шарів повної уваги на новий, гіпер-ефективний лінійний дизайн уваги під назвою JetBlock. Оптимізація для пропускної здатності: пошук утримує кілька ключових шарів повної уваги в точних позиціях, необхідних для складних міркувань, створюючи гібридну модель, оптимізовану для швидкості на графічних процесорах H100. Результатом є Jet-Nemotron: штучний інтелект, що видає 2 885 токенів на секунду з продуктивністю моделі найвищого рівня та в 47 разів меншим кешем KV. Чому це важливо для вашої стратегії штучного інтелекту: - Бізнес-лідери: 53-кратне прискорення означає зниження витрат на ~98% для висновків у масштабі. Це докорінно змінює розрахунок рентабельності інвестицій для розгортання високопродуктивного ШІ. - Практики: Це стосується не лише дата-центрів. Значний приріст ефективності та малий обсяг пам'яті (154 МБ кеш-пам'яті) дозволяють розгортати моделі рівня SOTA на обладнанні з обмеженим обсягом пам'яті та периферійному обладнанні. - Дослідники: PostNAS пропонує нову, капіталоефективну парадигму. Замість того, щоб витрачати мільйони на попереднє навчання, тепер ви можете впроваджувати інновації в архітектуру, модифікуючи існуючі моделі, різко знижуючи вхідний бар'єр для створення нових, ефективних LM.
264,51K