Mở rộng suy diễn MoE thường bị ràng buộc bởi giao tiếp + KV-cache: một khi bạn đẩy song song chuyên gia, quá trình giải mã có thể bị chi phối bởi các tập hợp và sự mất cân bằng, và các yếu tố chậm trong việc điền trước có thể làm đình trệ toàn bộ nhóm EP. Kết quả benchmark cộng đồng mới cho vLLM wide-EP trên H200 đa nút (Coreweave, Infiniband + ConnectX-7): - Duy trì ~2.2k tokens/s cho mỗi GPU H200 (tăng từ ~1.5k tokens/s cho mỗi GPU trước đó) Trong bài viết, chúng tôi chia sẻ những phần chính giúp điều này xảy ra: - Wide-EP (`--enable-expert-parallel`) cho MoE kiểu DeepSeek + hiệu quả KV MLA - DeepEP all-to-all, Chồng chéo Dual-batch (DBO), và Cân bằng tải song song chuyên gia (EPLB) - Phân tách và các lộ trình triển khai Prefill/Decode thông qua llm-d, NVIDIA Dynamo, và Ray Serve LLM