Penso che questa sia un'interpretazione provocatoria e un buon pensiero, ma volevo approfondire un po' la razionalità. Oggi, la maggior parte degli strumenti AI funziona nel cloud. Ogni volta che chiedi a un modello di scrivere, riassumere, tradurre o analizzare qualcosa, quella richiesta colpisce una GPU in un data center. Più utenti → più query → più GPU → più data center → più linee elettriche, trasformatori, sottostazioni → più generazione, ecc. Questo è il volano principale dietro l'attuale boom di hardware AI + capex dei data center. L'inferenza utile su dispositivo interrompe quella catena lineare. Se un modello con miliardi di parametri è sufficientemente efficiente da funzionare sul chip neurale all'interno del tuo telefono, laptop, auto o cuffie, allora un grande numero di compiti quotidiani non deve mai lasciare il dispositivo. Pensa a richieste semplici ma ad alto volume: completamento automatico, redazione di email, trascrizione vocale, riassunto, semplice riconoscimento delle immagini. Queste sono esattamente le query generali ad alto volume e bassa complessità che probabilmente domineranno l'uso. Controllo rapido su cosa può cambiare: Assunzioni semplici - flessibili come vuoi. -1 miliardo di utenti × 50 query/giorno × ~$0.002/query x 365 giorni = ~$35 miliardi/anno in costi di inferenza nel cloud. -Se il 30% di questo si sposta su dispositivo, sono ~$11 miliardi+ di domanda annuale nel cloud che non si materializza mai. -Il costo marginale per query locale è effettivamente ~$0 una volta che il dispositivo è stato spedito. Caveat normali: l'hardware sta arrivando, ma deve ancora aumentare la memoria, la larghezza di banda, ecc. Ma, un modello da 3 a 7 miliardi di parametri che funziona sul chip neurale di un telefono (circa 10-45 "TOPS" oggi, 60+ previsto entro il 2027) potrebbe gestire quei compiti ad alto volume e bassa complessità localmente. Non hai bisogno di modelli di frontiera per ogni richiesta. Il cloud conta ancora, per essere molto chiari. L'addestramento di modelli di frontiera, il ragionamento lungo e complesso, i grandi carichi di lavoro aziendali, il coordinamento multi-agente - tutto ciò rimane molto meglio adatto a grandi data center centralizzati. Il cambiamento chiave è che la catena logica non è più "ogni nuovo utente = devo aggiungere più GPU e più gigawatt di capacità del data center." Qui è sconosciuto l'argomento del paradosso di Jevons e se questo spinga a un maggiore utilizzo dell'AI e spinga gli utenti a cercare richieste più complesse che compensano parte di questo. Per il punto di Aashay, il boom del capex non si "rompe" completamente, ma la sua attuale traiettoria di intensità è molto probabilmente modificata. Spostare anche solo il 5-30% dei carichi di lavoro di inferenza dal cloud al dispositivo all'attuale scala può essere significativo. I problemi difficili rimangono centralizzati nel cloud. Ma l'"AI quotidiana" diventa una caratteristica dell'hardware che già possiedi rispetto a un'utilità misurata che viene affittata per query.