Microsoft presenteert het meten van LLM-inferentie-energie (productieschaal) • Mediaan kosten: 0,34 Wh/query (chatbot) • Lange redenering: 4,3 Wh/query (~13× hoger) • Vlootgrootte: ~0,9 GWh/dag @1B queries → ~webzoekniveau • Publieke schattingen zijn vaak 4–20× te hoog • Efficiëntiewinst (model, service, hardware) → 8–20× lagere energie mogelijk Lange outputs domineren energie; slimme optimalisatie houdt de AI-voetafdruk beheersbaar.