A coisa que a maioria das pessoas não percebe sobre a velocidade dos modelos: Doug O’Laughlin, Presidente da SemiAnalysis, diz: "O Google parece rápido porque tem uma infraestrutura massiva e menos usuários." "O problema inverso é que o ChatGPT tem muitos usuários. Para atender mais pessoas, você agrupa tokens — e a agregação adiciona latência." "Quando você vê tokens mais lentos, muitas vezes é uma escolha: atender mais usuários na mesma infraestrutura." "Modelos Flash, mini e micro não são mágicos. Eles são fortemente otimizados para serem rápidos sob carga do mundo real."