Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Keksimme juuri, kuinka siirtää YKSI BILJOONA parametria GPU:iden välillä 1.3 sekunnissa.
Se on 20-kertainen nopeus perinteisiin menetelmiin verrattuna.
Näytän sinulle, miten teimme sen:

23 tuntia sitten
Painonsiirto on yksi suurimmista pullonkauloista suoritettaessa hajautettua RL:ää suurikapasiteettisissa malleissa.
Ensimmäinen Perplexity Research -blogimme selittää, kuinka Perplexityn päättelyinsinöörit valjastivat RDMA:n pisteestä pisteeseen -viestinnän avatakseen erittäin nopeat parametripäivitykset biljoonan parametrin malleille.
Valjastamalla matalan tason RDMA-primitiivejä, staattista ajoitusta ja putkilinjausta nopeutamme päivityksiä suuruusluokkaa, vain 1,3 sekuntiin päivitystä kohden.

1/ Ongelma
Kun harjoitat massiivisia tekoälymalleja vahvistusoppimisen avulla, tarvitset kaksi erillistä GPU-klusteria, jotka toimivat yhdessä: mallia päivittävien grafiikkasuorittimien kouluttaminen ja sitä suorittavien päättelysuorittimien päättely.
Jokaisen harjoitusvaiheen jälkeen sinun on kopioitava kaikki päivitetyt painot harjoittelusta päättelyyn. Triljoonan parametrin malleissa useimmat järjestelmät kestävät 30 sekunnista useisiin minuutteihin.
Se on valtava pullonkaula. Harjoitusvaiheesi voi kestää 5 sekuntia, mutta sitten odotat 30 sekuntia vain kopioimalla painoja.
1/ Ongelma
Kun koulutamme massiivisia tekoälymalleja vahvistusoppimisella, tarvitsemme kaksi erillistä GPU-klusteria, jotka toimivat yhdessä: mallia päivittävät grafiikkasuorittimet ja sitä suorittavat päättelygrafiikkasuorittimet.
Jokaisen harjoitusvaiheen jälkeen meidän on kopioitava kaikki päivitetyt painot harjoittelusta päättelyyn. Biljoonan parametrin Kimi-K2-mallissamme useimmat nykyiset järjestelmät vievät tämän tekemiseen 30 sekunnista useisiin minuutteihin.
Se on valtava pullonkaula.
Harjoitusvaiheemme saattoi kestää 5 sekuntia, mutta sitten odotimme 30 sekuntia vain kopioimalla painoja. Epätyydyttävä.
2/ Vanha tapa
Perinteiset järjestelmät ohjaavat kaiken yhden "rank-0" GPU:n kautta. Kaikki harjoitusgrafiikkasuorittimet lähettävät yhdelle päägrafiikkasuorittimelle, joka lähettää yhdelle päättelygrafiikkasuorittimelle, joka jakaa muille.
Se on kuin pakottaisi kaiken postin kulkemaan yhden postitoimiston kautta. Tästä yhdestä yhteydestä tulee pullonkaula - rajoitettu noin 50 gigatavuun sekunnissa.
Tiesimme, että oli oltava parempi tapa.
3/ Läpimurtomme
Ratkaisumme: RDMA WRITE - Remote Direct Memory Access.
RDMA:n avulla koulutusgrafiikkasuorittimemme voivat kirjoittaa suoraan päättelyn GPU-muistiin. Ei välikäsiä. Ei luvan kysymistä. Teleportaamme tiedot suoraan toisen tietokoneen RAM-muistiin.
Vastaanottava GPU ei edes saa ilmoitusta. Se on "yksipuolinen" operaatio.
Ja tässä on avain: JOKAINEN koulutusgrafiikkasuoritin puhuu suoraan JOKAISEN päättelysuorittimen kanssa. Kaikki kerralla. Rinnakkain. Kyllästämme koko verkkokudoksen sen sijaan, että pullonkauloisimme yhteen linkkiin.
Käytämme myös putkilinjausta - jaamme siirrot päällekkäisiin vaiheisiin, jotta eri laitteistoresurssit pysyvät varattuina samanaikaisesti.
Lisäksi laskemme siirtoaikataulun kerran käynnistyksen yhteydessä ja toistamme sen uudelleen. Ei toistuvaa suunnittelua.

4/ Tuloksemme
Kimi-K2:lle, jossa on 1 biljoona parametria: 1,3 sekuntia siirtyä 256 koulutusgrafiikkasuorittimesta 128 päättelysuorittimeen.
Se siirtää noin 2 teratavua dataa hieman yli sekunnissa. Verkon kautta. Koneiden välillä.
Kun poltamme tuhansia dollareita tunnissa GPU-klustereissa, tämän pullonkaulan poistaminen tarkoittaa valtavia kustannussäästöjä ja nopeampia iteraatiosyklejä.


4/ Tuloksemme
Kimi-K2:lle, jossa on 1 biljoona parametria: 1,3 sekuntia siirtyä 256 koulutusgrafiikkasuorittimesta 128 päättelysuorittimeen.
Se siirtää noin 2 teratavua dataa hieman yli sekunnissa. Verkon kautta. Koneiden välillä.
Kun poltamme tuhansia dollareita tunnissa GPU-klustereissa, tämän pullonkaulan poistaminen tarkoittaa valtavia kustannussäästöjä ja nopeampia iteraatiosyklejä.



5/ Miksi sillä on merkitystä
Tyylikäs osa? Emme keksineet uutta laitteistoa. Käytimme vain olemassa olevaa RDMA-tekniikkaa älykkään järjestelmäsuunnittelun kanssa.
Joskus parhaat ratkaisut eivät ole uuden keksimistä - ne ovat olemassa olevien työkalujen käyttämistä todella, todella hyvin.
Näin rakennamme Perplexityssä.

Tämä on siis korkean tason yleiskatsaus painonsiirtojärjestelmästämme. Mutta olen varma, että teillä kaikilla on kysymyksiä, eikö niin?
Kysy minulta mitä tahansa.

123,03K
Johtavat
Rankkaus
Suosikit