A coisa que a maioria das pessoas não percebe sobre a velocidade dos modelos: Doug O'Laughlin, presidente da SemiAnalysis, diz: "O Google parece rápido porque tem uma infraestrutura enorme e menos usuários." "O problema inverso é que o ChatGPT tem usuários demais. Para atender mais pessoas, você agrupa tokens — e o agrupamento adiciona latência." "Quando você vê tokens mais lentos, muitas vezes é uma escolha: atender mais usuários na mesma infraestrutura." "Flash, mini e micro modelos não são mágica. Eles são altamente otimizados para serem rápidos sob carga real."