NVIDIA-onderzoek heeft LLM's net 53x sneller gemaakt. 🤯 Stel je voor dat je je AI-inferentiebudget met 98% kunt verlagen. Deze doorbraak vereist geen training van een nieuw model vanaf nul; het upgradeert je bestaande modellen voor hyper-snelheid terwijl het de SOTA-precisie evenaart of overtreft. Hier is hoe het werkt: De techniek heet Post Neural Architecture Search (PostNAS). Het is een revolutionair proces voor het retrofitteren van voorgetrainde modellen. Bevries de Kennis: Het begint met een krachtig model (zoals Qwen2.5) en vergrendelt zijn kern MLP-lagen, waardoor zijn intelligentie behouden blijft. Chirurgische Vervanging: Vervolgens gebruikt het een hardware-bewuste zoektocht om de meeste langzame, O(n²) full-attention lagen te vervangen door een nieuw, hyper-efficiënt lineair aandachtontwerp genaamd JetBlock. Optimaliseer voor Doorvoer: De zoektocht houdt een paar belangrijke full-attention lagen in de exacte posities die nodig zijn voor complexe redenering, waardoor een hybride model ontstaat dat geoptimaliseerd is voor snelheid op H100 GPU's. Het resultaat is Jet-Nemotron: een AI die 2.885 tokens per seconde levert met top-tier modelprestaties en een 47x kleinere KV-cache. Waarom dit belangrijk is voor je AI-strategie: - Bedrijfsleiders: Een 53x versnelling vertaalt zich naar een ~98% kostenreductie voor inferentie op schaal. Dit verandert de ROI-berekening voor het inzetten van high-performance AI fundamenteel. - Praktijkmensen: Dit is niet alleen voor datacenters. De enorme efficiëntiewinst en de kleine geheugenspoor (154MB cache) maken het mogelijk om SOTA-niveau modellen in te zetten op geheugenbeperkte en edge-hardware. - Onderzoekers: PostNAS biedt een nieuw, kapitaal-efficiënt paradigma. In plaats van miljoenen uit te geven aan voortraining, kun je nu innoveren op architectuur door bestaande modellen te modificeren, waardoor de drempel voor het creëren van nieuwe, efficiënte LMs dramatisch wordt verlaagd.
360,02K