Det de fleste ikke er klar over om modellens hastighet: Doug O'Laughlin, president for SemiAnalysis, sier: "Google ser rask ut fordi de har massiv infrastruktur og færre brukere." "Det motsatte problemet er at ChatGPT har for mange brukere. For å betjene flere, batcher du tokens – og batching øker latens." "Når du ser tregere tokens, er det ofte et valg: betjene flere brukere på samme infrastruktur." "Flash-, mini- og mikromodeller er ikke magi. De er sterkt optimalisert for å være raske under reell belastning."