Искренний вопрос ко всем здесь: Вас бы заинтересовала серия по оптимизации вывода LLM? Я думаю о таких темах, как: - Как работает квантизация (GGUF против AWQ против bitsandbytes, объяснено просто, без лишней воды) - Ollama против vLLM для локального развертывания и когда использовать что - Спекулятивное декодирование: ускорение в 2-3 раза без потери качества - KV кэш и кэширование подсказок - Генерация структурированного вывода - Бенчмаркинг и профилирование вывода LLM Если это поможет вам или вызовет ваш интерес, просто ответьте, указав ваш основной интерес, или просто согласны вы или не согласны с этой идеей. Если достаточно людей заинтересуется, я начну это в новом году.