Исследования NVIDIA только что сделали LLM на 53x быстрее. 🤯 Представьте, что вы сокращаете свой бюджет на ИИ-инференс на 98%. Этот прорыв не требует обучения новой модели с нуля; он обновляет ваши существующие модели для гиперскорости, при этом соответствуя или превосходя точность SOTA. Вот как это работает: Техника называется Post Neural Architecture Search (PostNAS). Это революционный процесс для доработки предобученных моделей. Заморозка знаний: Он начинается с мощной модели (например, Qwen2.5) и блокирует ее основные слои MLP, сохраняя ее интеллект. Хирургическая замена: Затем он использует аппаратно-осведомленный поиск, чтобы заменить большинство медленных полных слоев внимания O(n²) на новый гиперэффективный линейный дизайн внимания под названием JetBlock. Оптимизация для пропускной способности: Поиск сохраняет несколько ключевых полных слоев внимания в точных позициях, необходимых для сложного рассуждения, создавая гибридную модель, оптимизированную для скорости на GPU H100. Результат — Jet-Nemotron: ИИ, который выдает 2,885 токенов в секунду с производительностью модели высшего уровня и кэшем KV в 47 раз меньшим. Почему это важно для вашей стратегии ИИ: - Лидеры бизнеса: Увеличение скорости в 53 раза означает сокращение затрат на ~98% для инференса в масштабе. Это кардинально меняет расчет ROI для развертывания высокопроизводительного ИИ. - Практики: Это не только для дата-центров. Огромные приросты эффективности и крошечный объем памяти (154 МБ кэш) делают возможным развертывание моделей уровня SOTA на оборудовании с ограниченной памятью и на краевых устройствах. - Исследователи: PostNAS предлагает новую, капиталоемкую парадигму. Вместо того чтобы тратить миллионы на предобучение, вы теперь можете инновационно подходить к архитектуре, модифицируя существующие модели, что значительно снижает барьер для создания новых, эффективных LMs.
406,16K