Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je pense que c'est une prise de position provocante et une bonne réflexion, mais je voulais examiner un peu le raisonnement.
Aujourd'hui, la plupart des outils d'IA fonctionnent dans le cloud. Chaque fois que vous demandez à un modèle d'écrire, de résumer, de traduire ou d'analyser quelque chose, cette demande atteint un GPU dans un centre de données. Plus d'utilisateurs → plus de requêtes → plus de GPUs → plus de centres de données → plus de lignes électriques, de transformateurs, de sous-stations → plus de génération, etc. C'est le cœur du flywheel derrière le boom actuel des dépenses en capital pour le matériel d'IA + les centres de données.
L'inférence utile sur l'appareil perturbe cette chaîne linéaire.
Si un modèle de plusieurs milliards de paramètres est suffisamment efficace pour fonctionner sur la puce neuronale de votre téléphone, ordinateur portable, voiture ou casque, alors une grande partie des tâches quotidiennes n'a jamais besoin de quitter l'appareil. Pensez à des demandes simples mais à fort volume : autocomplétion, rédaction d'e-mails, transcription vocale, résumé, reconnaissance d'images simple. Ce sont exactement les requêtes générales à fort volume et faible complexité qui domineront probablement l'utilisation.
Vérification rapide de ce qui peut changer : Hypothèses simples - adaptez comme vous le souhaitez.
-1 milliard d'utilisateurs × 50 requêtes/jour × ~0,002 $/requête x 365 jours = ~35 milliards $/an en coût d'inférence cloud.
-Si 30 % de cela passe sur l'appareil, cela représente ~11 milliards $+ de demande cloud annuelle qui ne se matérialise jamais.
-Le coût marginal par requête locale est effectivement d'environ 0 $ une fois l'appareil expédié.
Avertissements normaux : le matériel y parvient, mais doit encore augmenter la mémoire, la bande passante, etc. Mais, un modèle de 3 à 7 milliards de paramètres fonctionnant sur la puce neuronale d'un téléphone (environ 10 à 45 "TOPS" aujourd'hui, 60+ projetés d'ici 2027) pourrait gérer ces tâches à fort volume et faible complexité localement. Vous n'avez pas besoin de modèles à l'échelle de la frontière pour chaque invite.
Le cloud reste important, pour être très clair. Former des modèles de pointe, un raisonnement lourd sur le long terme, de grandes charges de travail d'entreprise, la coordination multi-agents - tout cela reste beaucoup mieux adapté aux grands centres de données centralisés. Le changement clé est que la chaîne logique n'est plus "chaque nouvel utilisateur = je dois ajouter plus de GPUs et plus de gigawatts de capacité de centre de données." Ce qui est inconnu ici est l'argument du paradoxe de Jevons et si cela entraîne une utilisation accrue de l'IA et pousse les utilisateurs à rechercher des invites plus complexes, ce qui compense une partie de cela.
Pour le point d'Aashay, le boom des dépenses en capital ne "se brise" pas entièrement, mais sa trajectoire d'intensité actuelle est très probablement modifiée. Déplacer même 5 à 30 % des charges de travail d'inférence du cloud vers l'appareil à l'échelle actuelle peut être significatif. Les problèmes difficiles restent centralisés dans le cloud. Mais "l'IA quotidienne" devient une fonctionnalité du matériel que vous possédez déjà, plutôt qu'un service mesuré loué par requête.
Meilleurs
Classement
Favoris

