DApp Store | Web3 Hub tapahtumille ja peleille

Keksimme juuri, kuinka siirtää YKSI BILJOONA parametria GPU:iden välillä 1.3 sekunnissa. Se on 20-kertainen nopeus perinteisiin menetelmiin verrattuna. Näytän sinulle, miten teimme sen:

1/ Ongelma Kun harjoitat massiivisia tekoälymalleja vahvistusoppimisen avulla, tarvitset kaksi erillistä GPU-klusteria, jotka toimivat yhdessä: mallia päivittävien grafiikkasuorittimien kouluttaminen ja sitä suorittavien päättelysuorittimien päättely. Jokaisen harjoitusvaiheen jälkeen sinun on kopioitava kaikki päivitetyt painot harjoittelusta päättelyyn. Triljoonan parametrin malleissa useimmat järjestelmät kestävät 30 sekunnista useisiin minuutteihin. Se on valtava pullonkaula. Harjoitusvaiheesi voi kestää 5 sekuntia, mutta sitten odotat 30 sekuntia vain kopioimalla painoja.

1/ Ongelma Kun koulutamme massiivisia tekoälymalleja vahvistusoppimisella, tarvitsemme kaksi erillistä GPU-klusteria, jotka toimivat yhdessä: mallia päivittävät grafiikkasuorittimet ja sitä suorittavat päättelygrafiikkasuorittimet. Jokaisen harjoitusvaiheen jälkeen meidän on kopioitava kaikki päivitetyt painot harjoittelusta päättelyyn. Biljoonan parametrin Kimi-K2-mallissamme useimmat nykyiset järjestelmät vievät tämän tekemiseen 30 sekunnista useisiin minuutteihin. Se on valtava pullonkaula. Harjoitusvaiheemme saattoi kestää 5 sekuntia, mutta sitten odotimme 30 sekuntia vain kopioimalla painoja. Epätyydyttävä.

2/ Vanha tapa Perinteiset järjestelmät ohjaavat kaiken yhden "rank-0" GPU:n kautta. Kaikki harjoitusgrafiikkasuorittimet lähettävät yhdelle päägrafiikkasuorittimelle, joka lähettää yhdelle päättelygrafiikkasuorittimelle, joka jakaa muille. Se on kuin pakottaisi kaiken postin kulkemaan yhden postitoimiston kautta. Tästä yhdestä yhteydestä tulee pullonkaula - rajoitettu noin 50 gigatavuun sekunnissa. Tiesimme, että oli oltava parempi tapa.

3/ Läpimurtomme Ratkaisumme: RDMA WRITE - Remote Direct Memory Access. RDMA:n avulla koulutusgrafiikkasuorittimemme voivat kirjoittaa suoraan päättelyn GPU-muistiin. Ei välikäsiä. Ei luvan kysymistä. Teleportaamme tiedot suoraan toisen tietokoneen RAM-muistiin. Vastaanottava GPU ei edes saa ilmoitusta. Se on "yksipuolinen" operaatio. Ja tässä on avain: JOKAINEN koulutusgrafiikkasuoritin puhuu suoraan JOKAISEN päättelysuorittimen kanssa. Kaikki kerralla. Rinnakkain. Kyllästämme koko verkkokudoksen sen sijaan, että pullonkauloisimme yhteen linkkiin. Käytämme myös putkilinjausta - jaamme siirrot päällekkäisiin vaiheisiin, jotta eri laitteistoresurssit pysyvät varattuina samanaikaisesti. Lisäksi laskemme siirtoaikataulun kerran käynnistyksen yhteydessä ja toistamme sen uudelleen. Ei toistuvaa suunnittelua.

4/ Tuloksemme Kimi-K2:lle, jossa on 1 biljoona parametria: 1,3 sekuntia siirtyä 256 koulutusgrafiikkasuorittimesta 128 päättelysuorittimeen. Se siirtää noin 2 teratavua dataa hieman yli sekunnissa. Verkon kautta. Koneiden välillä. Kun poltamme tuhansia dollareita tunnissa GPU-klustereissa, tämän pullonkaulan poistaminen tarkoittaa valtavia kustannussäästöjä ja nopeampia iteraatiosyklejä.

4/ Tuloksemme Kimi-K2:lle, jossa on 1 biljoona parametria: 1,3 sekuntia siirtyä 256 koulutusgrafiikkasuorittimesta 128 päättelysuorittimeen. Se siirtää noin 2 teratavua dataa hieman yli sekunnissa. Verkon kautta. Koneiden välillä. Kun poltamme tuhansia dollareita tunnissa GPU-klustereissa, tämän pullonkaulan poistaminen tarkoittaa valtavia kustannussäästöjä ja nopeampia iteraatiosyklejä.

5/ Miksi sillä on merkitystä Tyylikäs osa? Emme keksineet uutta laitteistoa. Käytimme vain olemassa olevaa RDMA-tekniikkaa älykkään järjestelmäsuunnittelun kanssa. Joskus parhaat ratkaisut eivät ole uuden keksimistä - ne ovat olemassa olevien työkalujen käyttämistä todella, todella hyvin. Näin rakennamme Perplexityssä.

Tämä on siis korkean tason yleiskatsaus painonsiirtojärjestelmästämme. Mutta olen varma, että teillä kaikilla on kysymyksiä, eikö niin? Kysy minulta mitä tahansa.