Câu hỏi chân thành cho mọi người ở đây: Bạn có quan tâm đến một loạt bài về Tối ưu hóa Suy diễn LLM không? Tôi đang nghĩ đến những thứ như: - Cách mà lượng tử hóa thực sự hoạt động (GGUF so với AWQ so với bitsandbytes, giải thích đơn giản, không rườm rà) - Ollama so với vLLM cho triển khai cục bộ và khi nào nên sử dụng cái nào - Giải mã suy đoán: tăng tốc độ 2-3 lần mà không mất chất lượng - Bộ nhớ KV và bộ nhớ prompt - Tạo đầu ra có cấu trúc - Đánh giá và phân tích hiệu suất suy diễn LLM Nếu điều này sẽ giúp bạn hoặc khơi dậy sự tò mò của bạn, chỉ cần trả lời cho tôi biết mối quan tâm chính của bạn, hoặc chỉ đơn giản là nếu bạn đồng ý hay không đồng ý với ý tưởng này. Nếu đủ người quan tâm, tôi sẽ bắt đầu vào năm mới.