大多数人没有意识到模型速度的事情: SemiAnalysis的总裁Doug O’Laughlin说: “谷歌看起来很快,因为它有庞大的基础设施和较少的用户。” “反之,ChatGPT的用户太多。为了服务更多人,你需要批量处理令牌——而批量处理会增加延迟。” “当你看到较慢的令牌时,这通常是一个选择:在相同的基础设施上服务更多用户。” “Flash、mini和micro模型并不是魔法。它们经过高度优化,以在现实世界负载下快速运行。”