NVIDIA-forskning har nettopp gjort LLM-er 53 ganger raskere. 🤯 Tenk deg å kutte AI-inferensbudsjettet ditt med 98 %. Dette gjennombruddet krever ikke opplæring av en ny modell fra bunnen av; den oppgraderer dine eksisterende for hyperhastighet mens den matcher eller slår SOTA-nøyaktigheten. Slik fungerer det: Teknikken kalles Post Neural Architecture Search (PostNAS). Det er en revolusjonerende prosess for ettermontering av forhåndstrente modeller. Frys kunnskapen: Den starter med en kraftig modell (som Qwen2.5) og låser ned kjerne-MLP-lagene, og bevarer intelligensen. Kirurgisk erstatning: Den bruker deretter et maskinvarebevisst søk for å erstatte de fleste av de langsomme, O(n²) fulle oppmerksomhetslagene med en ny, hypereffektiv lineær oppmerksomhetsdesign kalt JetBlock. Optimaliser for gjennomstrømning: Søket holder noen få viktige lag med full oppmerksomhet i de nøyaktige posisjonene som trengs for komplekse resonnementer, og skaper en hybridmodell optimalisert for hastighet på H100 GPUer. Resultatet er Jet-Nemotron: en AI som leverer 2 885 tokens per sekund med modellytelse på toppnivå og en 47 ganger mindre KV-cache. Hvorfor dette er viktig for AI-strategien din: - Bedriftsledere: En 53x raskere økning tilsvarer en kostnadsreduksjon på ~98 % for slutning i stor skala. Dette endrer ROI-beregningen for distribusjon av kunstig intelligens med høy ytelse fundamentalt. - Utøvere: Dette er ikke bare for datasentre. De enorme effektivitetsgevinstene og det lille minnefotavtrykket (154 MB cache) gjør det mulig å distribuere modeller på SOTA-nivå på minnebegrenset maskinvare og edge-maskinvare. - Forskere: PostNAS tilbyr et nytt, kapitaleffektivt paradigme. I stedet for å bruke millioner på forhåndsopplæring, kan du nå innovere på arkitektur ved å modifisere eksisterende modeller, noe som dramatisk senker inngangsbarrieren for å lage nye, effektive LM-er.
218,75K