微软发布了测量 LLM 推理能耗(生产规模) • 中位数成本:0.34 Wh/查询(聊天机器人) • 长推理:4.3 Wh/查询(约高出 13 倍) • 车队规模:~0.9 GWh/天 @1B 查询 → ~网络搜索水平 • 公众估计通常高出 4–20 倍 • 效率提升(模型、服务、硬件)→ 可能降低 8–20 倍的能耗 长输出主导能耗;智能优化保持 AI 足迹可控。