Microsoft presenta la misurazione dell'energia di inferenza LLM (scala di produzione) • Costo mediano: 0,34 Wh/query (chatbot) • Ragionamento lungo: 4,3 Wh/query (~13× superiore) • Scala della flotta: ~0,9 GWh/giorno @1B query → ~livello di ricerca web • Stime pubbliche spesso 4–20× troppo alte • Guadagni di efficienza (modello, servizio, hardware) → possibile riduzione dell'energia di 8–20× Le uscite lunghe dominano l'energia; un'ottimizzazione intelligente mantiene gestibile l'impronta dell'IA.