🚀SonicMoE🚀: một triển khai MoE nhanh chóng được tối ưu hóa cho GPU NVIDIA Hopper. SonicMoE giảm bộ nhớ kích hoạt xuống 45% và nhanh hơn 1.86 lần trên H100 so với SOTA trước đó😃 Bài báo: Làm việc với @MayankMish98, @XinleC295, @istoica05, @tri_dao