Що більшість людей не усвідомлює про швидкість моделей: Даг О'Лафлін, президент SemiAnalysis, каже: «Google виглядає швидко, бо має величезну інфраструктуру і менше користувачів.» «Зворотна проблема в тому, що у ChatGPT занадто багато користувачів. Щоб обслуговувати більше людей, ви робите токени пакетами — а пакетування додає затримки.» "Коли бачиш повільніші токени, часто це вибір: обслуговувати більше користувачів на тій самій інфраструктурі." "Флеш, міні та мікромоделі — це не магія. Вони сильно оптимізовані для швидкості під реальним навантаженням.»