Microsoft menghadirkan Mengukur energi inferensi LLM (skala produksi) • Biaya rata-rata: 0,34 Wh/kueri (chatbot) • Penalaran panjang: 4,3 Wh/kueri (~13× lebih tinggi) • Skala armada: ~0,9 GWh/hari @1B kueri → ~ tingkat pencarian web • Publik est. seringkali 4–20× terlalu tinggi • Peningkatan efisiensi (model, servis, perangkat keras) → 8–20× energi lebih rendah mungkin Output panjang mendominasi energi; pengoptimalan cerdas membuat jejak AI tetap dapat dikelola.