Výzkum společnosti NVIDIA právě zrychlil LLM 53x. 🤯 Představte si, že snížíte svůj rozpočet na odvozování AI o 98 %. Tento průlom nevyžaduje trénování nového modelu od nuly; upgraduje vaše stávající na hyperrychlost a zároveň se vyrovná nebo překoná přesnost SOTA. Funguje to následovně: Tato technika se nazývá Post Neural Architecture Search (PostNAS). Jedná se o revoluční proces pro dovybavení předem natrénovaných modelů. Zmrazte znalosti: Začíná to výkonným modelem (jako je Qwen2.5) a uzamkne své základní vrstvy MLP, čímž si zachová svou inteligenci. Chirurgická náhrada: Poté pomocí hardwarového vyhledávání nahradí většinu pomalých vrstev O(n²) s plnou pozorností novým, hyperefektivním lineárním designem pozornosti nazvaným JetBlock. Optimalizace pro propustnost: Vyhledávání udržuje několik klíčových vrstev s plnou pozorností na přesných pozicích potřebných pro složité uvažování, čímž vzniká hybridní model optimalizovaný pro rychlost na grafických procesorech H100. Výsledkem je Jet-Nemotron: umělá inteligence poskytující 2 885 tokenů za sekundu s výkonem špičkového modelu a 47x menší mezipamětí KV. Proč je to důležité pro vaši strategii umělé inteligence: - Obchodní lídři: 53násobné zrychlení znamená ~98% snížení nákladů na odvozování ve velkém měřítku. To zásadně mění výpočet návratnosti investic pro nasazení vysoce výkonné umělé inteligence. - Praktici: To není jen pro datová centra. Masivní zvýšení efektivity a malá paměťová stopa (154 MB cache) umožňují nasazení modelů na úrovni SOTA na paměťově omezeném a okrajovém hardwaru. - Výzkumní pracovníci: PostNAS nabízí nové, kapitálově efektivní paradigma. Místo toho, abyste utráceli miliony za předtrénink, můžete nyní inovovat architekturu úpravou stávajících modelů, čímž se dramaticky sníží bariéra vstupu do vytváření nových, efektivních lineárních linek.
166,04K