大多數人未意識到的模型速度問題: SemiAnalysis 的總裁 Doug O’Laughlin 說: 「Google 看起來很快,因為它擁有龐大的基礎設施和較少的用戶。」 「相反的問題是 ChatGPT 擁有太多用戶。為了服務更多人,你需要批量處理令牌——而批量處理會增加延遲。」 「當你看到較慢的令牌時,這通常是一個選擇:在相同的基礎設施上服務更多用戶。」 「Flash、mini 和 micro 模型並不是魔法。它們經過大量優化,以便在現實世界的負載下快速運行。」