トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
スケーリングMoE推論はしばしば通信+KVキャッシュに縛られます。エキスパート並列性を押し出すと、デコードは集団や不均衡に支配され、プリフィルの遅れがEPグループ全体を停滞させることがあります。
マルチノードH200(Coreweave、Infiniband + ConnectX-7)におけるvLLMワイドEPの新しいコミュニティベンチマーク結果:
- H200 GPUあたり持続約2.2kトークン/秒(以前の約1.5kトークン/秒から増加)
この記事では、これを可能にする重要な要素を共有します。
- DeepSeekスタイルのMoE + MLA KV効率のためのワイドEP(「--enable-expert-parallel')
- DeepEPオール・トゥ・オール、デュアルバッチオーバーラップ(DBO)、エキスパート並列負荷分散(EPLB)
- LLM-d、NVIDIA Dynamo、Ray Serve LLMを介したプリフィル/デコードの分解および展開パス
トップ
ランキング
お気に入り
