Microsoft presenta Medición de la energía de inferencia de LLM (escala de producción) • Coste medio: 0,34 Wh/consulta (chatbot) • Razonamiento largo: 4,3 Wh/consulta (~13× superior) • Escala de flota: ~0,9 GWh/día @1B consultas → ~nivel de búsqueda web • Estimación pública a menudo de 4 a 20 × demasiado alta • Ganancias de eficiencia (modelo, servicio, hardware) → 8-20× menos de energía posible Las salidas largas dominan la energía; la optimización inteligente mantiene la huella de IA manejable.