我认为这是一个挑衅性的观点,也是一个很好的思考,但我想稍微理清一下其中的理由。 今天,大多数AI工具都在云端运行。每当你请求一个模型写作、总结、翻译或分析某些内容时,该请求就会触及数据中心的GPU。用户越多 → 查询越多 → GPU越多 → 数据中心越多 → 电力线、变压器、变电站越多 → 发电越多,等等。这就是当前AI硬件 + 数据中心资本支出繁荣背后的核心飞轮。 有用的设备端推理打破了这种线性链条。 如果一个数十亿参数的模型足够高效,可以在你手机、笔记本电脑、汽车或耳机内的神经芯片上运行,那么大量日常任务就不必离开设备。想想简单但高频的请求:自动补全、电子邮件草拟、语音转录、总结、简单的图像识别。这些正是可能主导使用的高频、低复杂度的通用查询。 快速检查一下可能发生变化的情况:简单假设 - 随意调整。 - 10亿用户 × 50个查询/天 × ~$0.002/查询 × 365天 = ~$350亿/年 的云推理成本。 - 如果其中30%转移到设备端,那就是每年超过$110亿的云需求不会出现。 - 每个本地查询的边际成本在设备发货后实际上是 ~$0。 正常的警告:硬件正在进步,但仍需扩大内存、带宽等。但,一个运行在手机神经芯片上的3–7B参数模型(今天大约10–45“TOPS”,预计到2027年超过60)可以在本地处理这些高频、低复杂度的任务。你不需要为每个提示使用前沿规模的模型。 云仍然很重要,必须明确。训练前沿模型、重型长上下文推理、大型企业工作负载、多代理协调——所有这些仍然更适合大型集中式数据中心。关键的变化是逻辑链不再是“每个新用户 = 我必须增加更多的GPU和更多的千瓦数据中心容量。”这里未知的是杰文斯悖论的论点,以及它是否会推动更多的AI使用,并促使用户寻求更复杂的提示,从而抵消其中的一部分。 针对Aashay的观点,资本支出繁荣并没有完全“破裂”,但其当前的强度轨迹很可能会被修改。在今天的规模下,将5–30%的推理工作负载从云端转移到设备端可能是有意义的。难题仍然集中在云端。但“日常AI”成为你已经拥有的硬件的一个特性,而不是按查询租用的计量公用事业。