Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cred că este o abordare provocatoare și o idee bună, dar am vrut să lucrez puțin la raționament.
Astăzi, majoritatea instrumentelor AI rulează în cloud. De fiecare dată când ceri unui model să scrie, să rezume, să traducă sau să analizeze ceva, acea cerere ajunge la un GPU dintr-un centru de date. Mai mulți utilizatori → mai multe interogări → mai multe GPU-uri → mai multe centre de date → mai multe linii electrice, transformatoare, stații → mai multă generație etc. Acesta este esențialul din spatele actualului boom al hardware-ului AI + capex pentru centre de date.
Inferența utilă pe dispozitiv perturbă acel lanț liniar.
Dacă un model cu miliarde de parametri este suficient de eficient pentru a rula pe cipul neural din telefon, laptop, mașină sau căști, atunci o mare parte din sarcinile zilnice nu trebuie să părăsească dispozitivul. Gândește-te la cereri simple, dar cu volum mare: completare automată, redactare de emailuri, transcriere vocală, rezumat, recunoaștere simplă a imaginilor. Acestea sunt exact interogările generale cu volum mare și complexitate redusă care probabil vor domina utilizarea.
Verificare rapidă a ceea ce se poate schimba: Presupuneri simple – flexibilizează-te cum vrei.
- 1 miliard de utilizatori × 50 de interogări pe zi × ~0,002 $/interogare x 365 zile = ~35 miliarde de dolari/an cost de inferență în cloud.
-Dacă 30% din acea sumă se mută pe dispozitiv, asta înseamnă ~11 miliarde$+ cerere anuală de cloud care nu se materializează niciodată.
-Costul marginal per interogare locală este practic ~$0 odată ce dispozitivul este livrat.
Avertismente normale: hardware-ul avansează, dar încă trebuie să scaleze memoria, lățimea de bandă etc. Totuși, un model cu parametri 3–7B care rulează pe cipul neural al unui telefon (aproximativ 10–45 "TOPS" astăzi, 60+ estimat până în 2027) ar putea gestiona acele sarcini cu volum mare și complexitate redusă local. Nu ai nevoie de modele la scară frontieră pentru fiecare prompt.
Norul contează totuși, ca să fiu foarte clar. Antrenarea modelelor de frontieră, raționamentul puternic pe contextul lung, sarcinile mari ale întreprinderilor, coordonarea multi-agent – toate acestea rămân mult mai potrivite pentru centrele de date mari și centralizate. Schimbarea cheie este că lanțul logic nu mai este "fiecare utilizator nou = trebuie să adaug mai multe GPU-uri și mai mulți gigawați de capacitate a centrului de date." Nu este cunoscut aici argumentul paradoxului lui Jevon și dacă acesta stimulează o utilizare mai mare a inteligenței artificiale și determină utilizatorii să caute indicații mai complexe, ceea ce compensează o parte din acest aspect
Conform punctului lui Aashay, boom-ul capex-ului nu se "rupe" complet, dar traiectoria sa actuală de intensitate este foarte probabil modificată. Mutarea chiar și a 5–30% din sarcinile de inferență din cloud pe dispozitiv la scara actuală poate fi semnificativă. Problemele dificile rămân centralizate în cloud. Dar "AI de zi cu zi" devine o caracteristică a hardware-ului pe care îl deții deja, spre deosebire de o utilitate măsurată închiriată de interogare.
Limită superioară
Clasament
Favorite

