La recherche de NVIDIA vient de rendre les LLMs 53 fois plus rapides. 🤯 Imaginez réduire votre budget d'inférence AI de 98%. Cette avancée ne nécessite pas de former un nouveau modèle depuis zéro ; elle améliore vos modèles existants pour une vitesse hyper-rapide tout en égalant ou en dépassant la précision SOTA. Voici comment cela fonctionne : La technique s'appelle Post Neural Architecture Search (PostNAS). C'est un processus révolutionnaire pour adapter des modèles pré-entraînés. Geler le Savoir : Cela commence avec un modèle puissant (comme Qwen2.5) et verrouille ses couches MLP centrales, préservant ainsi son intelligence. Remplacement Chirurgical : Il utilise ensuite une recherche consciente du matériel pour remplacer la plupart des couches d'attention complète lentes, O(n²), par un nouveau design d'attention linéaire hyper-efficace appelé JetBlock. Optimiser pour le Débit : La recherche conserve quelques couches d'attention complète clés aux positions exactes nécessaires pour un raisonnement complexe, créant un modèle hybride optimisé pour la vitesse sur les GPU H100. Le résultat est Jet-Nemotron : une IA délivrant 2 885 tokens par seconde avec des performances de modèle de premier ordre et un cache KV 47 fois plus petit. Pourquoi cela compte pour votre stratégie AI : - Leaders d'Entreprise : Un gain de vitesse de 53 fois se traduit par une réduction de coût d'environ 98% pour l'inférence à grande échelle. Cela change fondamentalement le calcul du ROI pour le déploiement d'AI haute performance. - Praticiens : Ce n'est pas seulement pour les centres de données. Les gains d'efficacité massifs et la petite empreinte mémoire (154 Mo de cache) rendent possible le déploiement de modèles de niveau SOTA sur du matériel à mémoire contrainte et en périphérie. - Chercheurs : PostNAS offre un nouveau paradigme capital-efficace. Au lieu de dépenser des millions pour le pré-entraînement, vous pouvez maintenant innover sur l'architecture en modifiant des modèles existants, abaissant considérablement la barrière à l'entrée pour créer des LMs novateurs et efficaces.
320,49K