Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Mở rộng suy diễn MoE thường bị ràng buộc bởi giao tiếp + KV-cache: một khi bạn đẩy song song chuyên gia, quá trình giải mã có thể bị chi phối bởi các tập hợp và sự mất cân bằng, và các yếu tố chậm trong việc điền trước có thể làm đình trệ toàn bộ nhóm EP.
Kết quả benchmark cộng đồng mới cho vLLM wide-EP trên H200 đa nút (Coreweave, Infiniband + ConnectX-7):
- Duy trì ~2.2k tokens/s cho mỗi GPU H200 (tăng từ ~1.5k tokens/s cho mỗi GPU trước đó)
Trong bài viết, chúng tôi chia sẻ những phần chính giúp điều này xảy ra:
- Wide-EP (`--enable-expert-parallel`) cho MoE kiểu DeepSeek + hiệu quả KV MLA
- DeepEP all-to-all, Chồng chéo Dual-batch (DBO), và Cân bằng tải song song chuyên gia (EPLB)
- Phân tách và các lộ trình triển khai Prefill/Decode thông qua llm-d, NVIDIA Dynamo, và Ray Serve LLM
80
vLLM mang lại hiệu suất suy diễn cao hơn nữa với cùng một nền tảng GPU.
Chỉ trong 1 tháng, chúng tôi đã làm việc với NVIDIA để tăng thông lượng tối đa của @nvidia Blackwell trên mỗi GPU lên tới 33% -- giảm đáng kể chi phí trên mỗi token -- đồng thời cho phép tốc độ đỉnh cao hơn nữa cho các trường hợp sử dụng nhạy cảm với độ trễ nhất, được hỗ trợ bởi sự tích hợp sâu với PyTorch và sự hợp tác.

122
🎉Chúc mừng đội ngũ @Zai_org về việc ra mắt GLM-4.6V và GLM-4.6V-Flash — với hỗ trợ phục vụ ngày-0 trong vLLM Recipes cho các đội muốn chạy chúng trên GPU của riêng họ.
GLM-4.6V tập trung vào lý luận đa phương thức chất lượng cao với ngữ cảnh dài và gọi công cụ/chức năng bản địa, trong khi GLM-4.6V-Flash là một biến thể 9B được điều chỉnh cho độ trễ thấp hơn và triển khai có kích thước nhỏ hơn; công thức vLLM mới của chúng tôi cung cấp cấu hình sẵn sàng chạy, hướng dẫn đa-GPU và các mặc định hướng đến sản xuất.
Nếu bạn đang xây dựng dịch vụ suy diễn và muốn GLM-4.6V trong ngăn xếp của mình, hãy bắt đầu từ đây:


Z.ai20:14 8 thg 12
Dòng sản phẩm GLM-4.6V đã có mặt🚀
- GLM-4.6V (106B): mô hình ngôn ngữ-vision hàng đầu với ngữ cảnh 128K
- GLM-4.6V-Flash (9B): phiên bản siêu nhanh, nhẹ cho các tác vụ cục bộ và độ trễ thấp
Lần đầu tiên có gọi hàm gốc trong gia đình mô hình vision GLM
Trọng số:
Hãy thử GLM-4.6V ngay bây giờ:
API:
Blog công nghệ:
Giá API (cho 1 triệu token):
- GLM-4.6V: $0.6 đầu vào / $0.9 đầu ra
- GLM-4.6V-Flash: Miễn phí

274
Hàng đầu
Thứ hạng
Yêu thích
