Microsoft apresenta Medindo a energia de inferência do LLM (escala de produção) • Custo médio: 0,34 Wh/consulta (chatbot) • Raciocínio longo: 4,3 Wh/consulta (~13× superior) • Escala da frota: ~0,9 GWh/dia @1B consultas → ~nível de pesquisa na web • Público est. geralmente 4–20× muito alto • Ganhos de eficiência (modelo, serviço, hardware) → 8 a 20× menos energia possível Saídas longas dominam a energia; a otimização inteligente mantém a pegada de IA gerenciável.