NVIDIAn tutkimus teki LLM:istä juuri 53 kertaa nopeampia. 🤯 Kuvittele, että leikkaat tekoälypäättelybudjettiasi 98 %. Tämä läpimurto ei edellytä uuden mallin kouluttamista tyhjästä; se päivittää nykyiset hypernopeuteen ja vastaa tai päihittää SOTA-tarkkuutta. Näin se toimii: Tekniikka on nimeltään Post Neural Architecture Search (PostNAS). Se on vallankumouksellinen prosessi esikoulutettujen mallien jälkiasennukseen. Jäädytä tieto: Se alkaa tehokkaalla mallilla (kuten Qwen2.5) ja lukitsee sen MLP-ydinkerrokset säilyttäen älykkyytensä. Kirurginen korvaus: Se käyttää sitten laitteistotietoista hakua korvatakseen suurimman osan hitaista, O(n²) täyden huomion kerroksista uudella, hypertehokkaalla lineaarisella huomiosuunnittelulla nimeltä JetBlock. Optimoi suorituskykyä varten: Haku pitää muutaman keskeisen täyden huomion tason tarkoissa paikoissa, joita tarvitaan monimutkaiseen päättelyyn, mikä luo hybridimallin, joka on optimoitu H100-grafiikkasuorittimien nopeuteen. Tuloksena on Jet-Nemotron: tekoäly, joka tuottaa 2 885 tokenia sekunnissa huippuluokan mallin suorituskyvyllä ja 47 kertaa pienemmällä KV-välimuistilla. Miksi tällä on merkitystä tekoälystrategiasi kannalta: - Yritysjohtajat: 53-kertainen nopeutus tarkoittaa ~98 prosentin kustannussäästöä laajamittaisessa päättelyssä. Tämä muuttaa perusteellisesti korkean suorituskyvyn tekoälyn käyttöönoton ROI-laskelmaa. - Ammattilaiset: Tämä ei koske vain datakeskuksia. Valtavat tehokkuusedut ja pieni muistijalanjälki (154 Mt:n välimuisti) mahdollistavat SOTA-tason mallien käyttöönoton muistirajoitetuissa ja reunalaitteissa. - Tutkijat: PostNAS tarjoaa uuden, pääomatehokkaan paradigman. Sen sijaan, että käyttäisit miljoonia esikoulutukseen, voit nyt innovoida arkkitehtuuria muokkaamalla olemassa olevia malleja, mikä madaltaa dramaattisesti uusien ja tehokkaiden LM-ohjelmien luomisen kynnystä.
421,39K