Microsoft presenta Medición de la energía de inferencia de LLM (escala de producción) • Costo medio: 0.34 Wh/query (chatbot) • Razonamiento largo: 4.3 Wh/query (~13× más alto) • Escala de flota: ~0.9 GWh/día @1B consultas → ~nivel de búsqueda web • Estimaciones públicas a menudo 4–20× demasiado altas • Ganancias de eficiencia (modelo, servicio, hardware) → 8–20× menor energía posible Las salidas largas dominan la energía; la optimización inteligente mantiene la huella de IA manejable.