Hal yang kebanyakan orang tidak sadari tentang kecepatan model: Doug O'Laughlin, Presiden SemiAnalysis, mengatakan: "Google terlihat cepat karena memiliki infrastruktur yang besar dan lebih sedikit pengguna." "Masalah sebaliknya adalah ChatGPT memiliki terlalu banyak pengguna. Untuk melayani lebih banyak orang, Anda mengelompokkan token — dan batching menambah latensi." "Ketika Anda melihat token yang lebih lambat, seringkali menjadi pilihan: melayani lebih banyak pengguna di infrastruktur yang sama." "Model flash, mini, dan mikro bukanlah keajaiban. Mereka sangat dioptimalkan agar cepat di bawah beban dunia nyata."