DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Moikka! Uusi tapa kouluttaa neuroverkkoja: perustuu vanhojen tekoälyideoiden uudelleenjärjestelyyn yhdistettynä videopelien "tallennusten scummingiin". Se on tapa pakottaa "potku", joka voi pelastaa tietyt mallityypit (erityisesti pienet tai eksoottiset topologiat), kun ne jäävät jumiin. Sokea. Kehitysopillinen. Paine.

Kutsun sitä "turhautumiseksi": se on kuin tallennetun videopelin uudelleenkäynnistys ja pomotaistelun yrittäminen uudelleen. Kuinka? Ota Last Known Good (LKG) -aikakausi, SITTEN tapat neuronin. Sitten opettele uudelleen. Toisin kuin Dropoutissa, vahinko ei ole ohimenevää kohinaa erissä. Rikomme mallin SEN JÄLKEEN, kun se on parantunut.

Turhautumisessa (Persistent [Stokastinen] Ablaatio) vahinko on kuoppa, joka täytyy välttää ja täyttää kaikki kerralla seuraavan aikakauden aikana. 2 strategiaa: tapa kaikki painot (kuten piilotetussa kerroksessa) neuronille tai pelkästään saapuva (kuten lähtölogitille).

Testasimme yksinkertaisilla MLP-verkkotopologioilla, jotka vaihtelevat miljoonista satoihin parametreihin, ja luetteloimme niiden "koulutettavuuden" leveyden (# neuronien) ja syvyyden (# kerrosten) perusteella. PSA pelasti joitakin malleja, joita Dropout ja Weight Decay eivät pystyneet: kaoottinen järjestelmä (sininen).

Tämä toimii jopa rikkinäisissä malleissa, joissa katoamisongelma tekee takaisinetenemisestä turhaa. (Mikä, kun sinulla ei ole ohitusyhteyksiä, ei ole kovin monta kerrosta!) Lisäksi voit sirauttaa vahinkoa ja kouluttaa useita korruptoituneita LKG:itä samanaikaisesti eri näytönohjaimilla.

Artikkeli heijastaa ensimmäistä konseptin todistusta, ja kyllä, koko idealla on *paljon* rajoituksia. Erityisesti se, kuinka laskennallisesti tuhlaileva räikkä on, tai että se oli MNIST-aineistossa (lelu) eikä ImageNetissä. Mutta hyviä uutisia! Varhaiset ResMLP-testit osoittavat lupaavia tuloksia!

Yritimme olla perusteellisia. Testasimme 98 topologiaa, joista monilla oli parametrien sovituskonfiguraatiot (eri ulottuvuudet, sama parametrimäärä). Mittasimme 3 diff PSA-tekniikkaa kolmea kontrollia vastaan, yli 10 tutkimusta kummassakin. Yhteensä 5 880 tutkimusta. Toistettavissa.

Jopa olosuhteissa, joissa Vanishing Gradient Problemin olisi pitänyt tehdä koulutuksesta mahdotonta (kuten 18x18 yksinkertaisessa MLP:ssä), PSA pystyi kouluttautumaan hyökkäämällä MNISTin ulostulolokeihin. Etkö usko minua? Kokeile ja katso!

Täällä on paljon siistejä pieniä "aha"-hetkiä. Muista, ettei mikään taustalla olevista ajatuksista ole uusi. Järjestimme ne uudella tavalla kokeillaksemme jotain, mikä on oikeastaan mahdollista vain nyt, kun GPU:t ovat niin tehokkaita.

Tuleva työ: • Alkuperäisten testien toistaminen ResMLP:llä, CNN:llä ja Transformersilla (ResMLP korjaa VGP:n, mutta patologisissa topologioissa PSA näyttää edelleen auttavan) • Kokeileminen ImageNetissä < kallista, mutta tämä on todellinen todiste, jota tarvitsemme.

Huomautukset: • Saman lähtölogin tappaminen luo johdonmukaisesti "anti-expert"-malleja, ja kun katsot heidän sekaannusmatriisejaan, näet dysleksian toiminnassa (kill 2 ja luokittelu ulottuu 5, 7 ja 8) • Meidän ei tarvitse pysyä stokastisissa hyökkäyksissä

Miksi tämä on arvokasta? • Jos se toimii suuremmissa tietoaineistoissa ja moderneissa malliarkkitehtuureissa, toivon sen olevan arvokas työkalu pienten kielimallien (SLM) rakentamisessa.

GitHub paperilla ja koodilla tässä:

1,51K

Johtavat

Rankkaus

Suosikit