Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetare interesantă de la Meta despre tendințele de scalare hardware.
Mai multe plăci video nu înseamnă întotdeauna antrenament mai rapid.
Abordarea implicită pentru scalarea antrenamentului LLM astăzi rămâne să arunce mai mult hardware la problemă. Mai multe acceleratoare, mai mult paralelism, mai mult calcul.
Totuși, există un plafon pe care majoritatea echipelor nu îl văd până nu îl ating.
Această nouă cercetare demonstrează că scalarea numărului total de acceleratoare pentru antrenarea de modele mari produce rapid randamente descrescătoare, chiar și cu hardware optimizat și strategii de paralelizare.
Cercetătorii au testat modelele Llama-2 (parametri 1B până la 70B) pe 8 până la 2.048 GPU-uri, acoperind hardware-uri V100, A100 și H100. Ce au descoperit? La scalarea de la 128 la 2.048 GPU-uri, debitul a scăzut cu 37,22%, în timp ce consumul de energie pe GPU a scăzut doar cu 5,87%.
Vinovatul este efortul de comunicare. La scară mare, operațiunile AllGather și ReduceScatter (două primitive MPI) devin blocaje. Majoritatea comunicării devine expusă, iar calculul nu mai poate ascunde latența.
Contrar intuitiv, strategiile de paralelism ale modelelor (paralelism tensorial și pipeline la gradele 2-4) care anterior se credea că reduc utilizarea hardware-ului devin de fapt preferabile la scară largă. Acestea reduc comunicarea expusă comparativ cu paralelismul pur al datelor.
Pe hardware mai nou, utilizarea se înrăutățește, nu se îmbunătățește. Utilizarea modelelor FLOPS a scăzut de la 59,67% pe A100 la 40,77% pe H100; cipurile mai rapide expun mai multă sarcină de comunicare.
De ce contează: Adăugarea mai multor GPU-uri oferă performanțe marginale slabe la fiecare unitate suplimentară de putere sau oră GPU. Echipele care scalează la mii de acceleratoare trebuie să reconsidere cu atenție strategiile de paralelizare, în loc să presupună că mai mult hardware înseamnă antrenare mai rapidă.

Limită superioară
Clasament
Favorite

