Die Forschung von NVIDIA hat LLMs gerade um das 53-fache beschleunigt. 🤯 Stellen Sie sich vor, Sie könnten Ihr Budget für KI-Inferenz um 98 % reduzieren. Dieser Durchbruch erfordert kein Training eines neuen Modells von Grund auf; er verbessert Ihre bestehenden Modelle für Hypergeschwindigkeit und erreicht dabei die SOTA-Genauigkeit oder übertrifft sie. So funktioniert es: Die Technik heißt Post Neural Architecture Search (PostNAS). Es ist ein revolutionärer Prozess zur Nachrüstung vortrainierter Modelle. Wissen einfrieren: Es beginnt mit einem leistungsstarken Modell (wie Qwen2.5) und sperrt seine Kern-MLP-Schichten, um seine Intelligenz zu bewahren. Chirurgischer Ersatz: Dann wird eine hardwarebewusste Suche verwendet, um die meisten langsamen, O(n²) Vollaufmerksamkeits-Schichten durch ein neues, hypereffizientes lineares Aufmerksamkeitsdesign namens JetBlock zu ersetzen. Für Durchsatz optimieren: Die Suche behält einige wichtige Vollaufmerksamkeits-Schichten an den genauen Positionen, die für komplexes Denken erforderlich sind, und schafft ein hybrides Modell, das für Geschwindigkeit auf H100-GPUs optimiert ist. Das Ergebnis ist Jet-Nemotron: eine KI, die 2.885 Tokens pro Sekunde mit erstklassiger Modellleistung und einem 47-fach kleineren KV-Cache liefert. Warum das für Ihre KI-Strategie wichtig ist: - Unternehmensleiter: Eine 53-fache Beschleunigung bedeutet eine Kostenreduzierung von ~98 % für die Inferenz im großen Maßstab. Dies verändert grundlegend die ROI-Berechnung für den Einsatz leistungsstarker KI. - Praktiker: Das ist nicht nur für Rechenzentren. Die massiven Effizienzgewinne und der kleine Speicherbedarf (154 MB Cache) ermöglichen es, SOTA-Modelle auf speicherbeschränkter und Edge-Hardware einzusetzen. - Forscher: PostNAS bietet ein neues, kapital-effizientes Paradigma. Anstatt Millionen für das Vortraining auszugeben, können Sie jetzt an der Architektur innovieren, indem Sie bestehende Modelle modifizieren, was die Eintrittsbarriere für die Schaffung neuartiger, effizienter LMs drastisch senkt.
320,48K