Lo que la mayoría de la gente no se da cuenta sobre la velocidad de los modelos: Doug O’Laughlin, presidente de SemiAnalysis, dice: "Google parece rápido porque tiene una infraestructura masiva y menos usuarios." "El problema inverso es que ChatGPT tiene demasiados usuarios. Para atender a más personas, agrupas tokens — y agrupar añade latencia." "Cuando ves tokens más lentos, a menudo es una elección: atender a más usuarios en la misma infraestructura." "Los modelos Flash, mini y micro no son magia. Están muy optimizados para ser rápidos bajo carga del mundo real."