Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Дослідження NVIDIA щойно зробили LLM у 53 рази швидшими. 🤯
Уявіть, що ви скорочуєте бюджет висновків штучного інтелекту на 98%.
Цей прорив не вимагає навчання новій моделі з нуля; він оновлює ваші існуючі для гіпершвидкості, відповідаючи або перевершуючи точність SOTA.
Ось як це працює:
Ця методика отримала назву Post Neural Architecture Search (PostNAS). Це революційний процес модернізації попередньо навчених моделей.
Заморожування знань: Він починається з потужної моделі (наприклад, Qwen2.5) і блокує свої основні шари MLP, зберігаючи свій інтелект.
Хірургічна заміна: Потім він використовує апаратно-орієнтований пошук для заміни більшості повільних, O(n²) шарів повної уваги на новий, гіпер-ефективний лінійний дизайн уваги під назвою JetBlock.
Оптимізація для пропускної здатності: пошук утримує кілька ключових шарів повної уваги в точних позиціях, необхідних для складних міркувань, створюючи гібридну модель, оптимізовану для швидкості на графічних процесорах H100.
Результатом є Jet-Nemotron: штучний інтелект, що видає 2 885 токенів на секунду з продуктивністю моделі найвищого рівня та в 47 разів меншим кешем KV.
Чому це важливо для вашої стратегії штучного інтелекту:
- Бізнес-лідери: 53-кратне прискорення означає зниження витрат на ~98% для висновків у масштабі. Це докорінно змінює розрахунок рентабельності інвестицій для розгортання високопродуктивного ШІ.
- Практики: Це стосується не лише дата-центрів. Значний приріст ефективності та малий обсяг пам'яті (154 МБ кеш-пам'яті) дозволяють розгортати моделі рівня SOTA на обладнанні з обмеженим обсягом пам'яті та периферійному обладнанні.
- Дослідники: PostNAS пропонує нову, капіталоефективну парадигму. Замість того, щоб витрачати мільйони на попереднє навчання, тепер ви можете впроваджувати інновації в архітектуру, модифікуючи існуючі моделі, різко знижуючи вхідний бар'єр для створення нових, ефективних LM.

264,51K
Найкращі
Рейтинг
Вибране