Det som de flesta inte inser om modellens hastighet: Doug O'Laughlin, ordförande för SemiAnalysis, säger: "Google ser snabbt ut eftersom det har massiv infrastruktur och färre användare." "Det omvända problemet är att ChatGPT har för många användare. För att hjälpa fler personer batchar du tokens – och batching ökar latensen." "När du ser långsammare tokens är det ofta ett val: att servera fler användare på samma infrastruktur." "Flash-, mini- och mikromodeller är inte magi. De är kraftigt optimerade för att vara snabba under verklig belastning."