多くの人がモデルの速度について気づいていないこと: SemiAnalysisの社長ダグ・オラフリンはこう述べています: 「Googleが速いのは、巨大なインフラを持ち、ユーザー数が少ないからです。」 「逆の問題は、ChatGPTにはユーザー数が多すぎることです。より多くの人に対応するためにトークンをバッチ処理し、バッチ処理は遅延を増やします。」 「遅いトークンを見かけたら、多くの場合選択肢があります。同じインフラでより多くのユーザーにサービスを提供する」 「フラッシュ、ミニ、マイクロモデルは魔法じゃない。実際の負荷下でも高速に最適化されているんだ。」