То, что большинство людей не осознает о скорости моделей: Даг О’Лафлин, президент SemiAnalysis, говорит: "Google выглядит быстро, потому что у него огромная инфраструктура и меньше пользователей." "Обратная проблема заключается в том, что у ChatGPT слишком много пользователей. Чтобы обслуживать больше людей, вы группируете токены — а группировка добавляет задержку." "Когда вы видите более медленные токены, это часто выбор: обслуживать больше пользователей на одной и той же инфраструктуре." "Flash, mini и micro модели не волшебство. Они сильно оптимизированы для быстрой работы под реальной нагрузкой."