DApp Store | Web3 Hub for hendelser og spill

Vi har nettopp funnet ut hvordan du overfører EN BILLION parametere mellom GPUer på 1.3 sekunder. Det er en 20x hastighet i forhold til tradisjonelle metoder. La meg vise deg hvordan vi gjorde det:

1/ Problemet Når du trener massive AI-modeller med forsterkende læring, trenger du to separate GPU-klynger som jobber sammen: opplæring av GPU-er som oppdaterer modellen, og slutnings-GPU-er som kjører den. Etter hvert treningstrinn må du kopiere alle de oppdaterte vektene fra trening til slutning. For billion-parametermodeller bruker de fleste systemer 30 sekunder til flere MINUTTER å gjøre dette. Det er en massiv flaskehals. Treningstrinnet ditt kan ta 5 sekunder, men så venter du 30 sekunder bare ved å kopiere vekter.

1/ Problemet Når vi trener massive AI-modeller med forsterkende læring, trenger vi to separate GPU-klynger som jobber sammen: opplæring av GPU-er som oppdaterer modellen, og slutnings-GPUer som kjører den. Etter hvert treningstrinn må vi kopiere alle de oppdaterte vektene fra trening til slutning. For vår Kimi-K2-modell med billioner parametere bruker de fleste eksisterende systemer 30 sekunder til flere MINUTTER å gjøre dette. Det er en massiv flaskehals. Treningstrinnet vårt kan ta 5 sekunder, men så ville vi vente 30 sekunder bare ved å kopiere vekter. Uakseptabel.

2/ Den gamle måten Tradisjonelle systemer kanaliserer alt gjennom en "rank-0" GPU. Alle trenings-GPUer sendes til én hoved-GPU, som sender til én slutnings-GPU, som distribueres til resten. Det er som å tvinge all post til å gå gjennom ett enkelt postkontor. Den ene forbindelsen blir flaskehalsen - begrenset til omtrent 50 gigabyte per sekund. Vi visste at det måtte finnes en bedre måte.

3/ Vårt gjennombrudd Vår løsning: RDMA WRITE - Remote Direct Memory Access. Med RDMA kan våre opplærings-GPUer skrive direkte inn i inferens-GPU-minne. Ingen mellommann. Ingen spør om tillatelse. Vi teleporterer bare data direkte til en annen datamaskins RAM. Den mottakende GPUen blir ikke engang varslet. Det er en "ensidig" operasjon. Og her er nøkkelen: HVER trenings-GPU snakker direkte til ALLE slutnings-GPUer. Alt på en gang. Parallelt. Vi metter hele nettverksstoffet i stedet for flaskehalser på en enkelt lenke. Vi bruker også pipelining - å dele overføringer i overlappende stadier slik at forskjellige maskinvareressurser holder seg opptatt samtidig. I tillegg beregner vi overføringsplanen en gang ved oppstart og spiller den bare av på nytt. Ingen gjentatte planleggingskostnader.

4/ Våre resultater For Kimi-K2 med 1 billion parametere: 1,3 sekunder for overføring fra 256 trenings-GPUer til 128 inferens-GPUer. Det er å flytte omtrent 2 terabyte med data på litt over et sekund. Over et nettverk. Mellom maskiner. Når vi brenner tusenvis av dollar i timen på GPU-klynger, betyr eliminering av denne flaskehalsen enorme kostnadsbesparelser og raskere iterasjonssykluser.

4/ Våre resultater For Kimi-K2 med 1 billion parametere: 1,3 sekunder for overføring fra 256 trenings-GPUer til 128 inferens-GPUer. Det er å flytte omtrent 2 terabyte med data på litt over et sekund. Over et nettverk. Mellom maskiner. Når vi brenner tusenvis av dollar i timen på GPU-klynger, betyr eliminering av denne flaskehalsen enorme kostnadsbesparelser og raskere iterasjonssykluser.

5/ Hvorfor det betyr noe Den elegante delen? Vi oppfant ikke ny maskinvare. Vi brukte bare eksisterende RDMA-teknologi med smart systemteknikk. Noen ganger handler ikke de beste løsningene om å finne opp noe nytt - de handler om å bruke eksisterende verktøy veldig, veldig bra. Det er slik vi bygger på Perplexity.

Så det er den overordnede oversikten over vårt vektoverføringssystem. Men jeg er sikker på at dere alle har spørsmål, ikke sant? Spør meg om hva som helst.