Microsoft prezintă Măsurarea energiei de inferență LLM (scară de producție) • Cost mediu: 0,34 Wh/interogare (chatbot) • Raționament lung: 4,3 Wh/interogare (~13× mai mare) • Scala flotei: ~0,9 GWh/zi @1B interogări → ~ nivel de căutare web • Public est. adesea 4-20× prea mare • Creșterea eficienței (model, servire, hardware) → cu 8-20× energie mai mică posibilă Ieșirile lungi domină energia; optimizarea inteligentă menține amprenta AI gestionabilă.