Điều mà hầu hết mọi người không nhận ra về tốc độ mô hình: Doug O’Laughlin, Chủ tịch của SemiAnalysis, nói: "Google trông nhanh vì nó có cơ sở hạ tầng khổng lồ và ít người dùng hơn." "Vấn đề ngược lại là ChatGPT có quá nhiều người dùng. Để phục vụ nhiều người hơn, bạn phải nhóm các token lại — và việc nhóm lại sẽ làm tăng độ trễ." "Khi bạn thấy các token chậm hơn, đó thường là một sự lựa chọn: phục vụ nhiều người dùng hơn trên cùng một cơ sở hạ tầng." "Các mô hình Flash, mini và micro không phải là phép thuật. Chúng được tối ưu hóa rất nhiều để nhanh chóng dưới tải thực tế."