Ceea ce majoritatea oamenilor nu realizează despre viteza modelului: Doug O'Laughlin, președintele SemiAnalysis, spune: "Google pare rapid pentru că are o infrastructură masivă și mai puțini utilizatori." "Problema inversă este că ChatGPT are prea mulți utilizatori. Pentru a deservi mai mulți oameni, grupezi tokenuri — iar lotarea adaugă latență." "Când vezi tokenuri mai lente, de multe ori este o alegere: să deservești mai mulți utilizatori pe aceeași infrastructură." "Flash, mini și micro modele nu sunt magice. Sunt puternic optimizate să fie rapide sub sarcină reală."