Věc, kterou si většina lidí neuvědomuje o rychlosti modelu: Doug O'Laughlin, prezident SemiAnalysis, říká: "Google vypadá rychle, protože má obrovskou infrastrukturu a méně uživatelů." "Opakující problém je, že ChatGPT má příliš mnoho uživatelů. Aby bylo možné obsloužit více lidí, dávkáte tokeny — a dávkování přidává latenci." "Když vidíte pomalejší tokeny, často je to volba: obsluhovat více uživatelů na stejné infrastruktuře." "Flash, mini a micro modely nejsou magie. Jsou silně optimalizované, aby byly rychlé při skutečné zátěži."