Microsoft präsentiert die Messung des Energieverbrauchs von LLM-Inferenz (Produktionsmaßstab) • Median-Kosten: 0,34 Wh/Abfrage (Chatbot) • Langes Denken: 4,3 Wh/Abfrage (~13× höher) • Flottenmaßstab: ~0,9 GWh/Tag bei 1B Abfragen → ~Web-Suchniveau • Öffentliche Schätzungen sind oft 4–20× zu hoch • Effizienzgewinne (Modell, Bereitstellung, Hardware) → 8–20× geringerer Energieverbrauch möglich Lange Ausgaben dominieren den Energieverbrauch; intelligente Optimierung hält den KI-Fußabdruck überschaubar.