Microsoft présente la mesure de l'énergie d'inférence des LLM (échelle de production) • Coût médian : 0,34 Wh/requête (chatbot) • Raisonnement long : 4,3 Wh/requête (~13× plus élevé) • Échelle de flotte : ~0,9 GWh/jour @1B requêtes → niveau de recherche web • Estimations publiques souvent 4–20× trop élevées • Gains d'efficacité (modèle, service, matériel) → 8–20× d'énergie en moins possible Les longues sorties dominent l'énergie ; une optimisation intelligente maintient l'empreinte de l'IA gérable.