Tencent lance WeDLM-8B-Instruct Un modèle de langage de diffusion qui fonctionne 3 à 6 fois plus vite que le Qwen3-8B optimisé par vLLM sur des tâches de raisonnement mathématique. - 3 à 6 fois plus rapide que le Qwen3-8B optimisé par vLLM sur des tâches de raisonnement mathématique - Surpasse le Qwen3-8B-Instruct de base sur la plupart des benchmarks - Compatible avec le cache KV natif (FlashAttention, PagedAttention, CUDA Graphs)