🙌 LLM 任意对任意的世界欢迎 Ming-flash-omni-preview,采用强大的 103B-A9B 架构,通过稀疏 MoE 提高了效率。它为开源全模态性能在理解和生成方面建立了新的基准: 1. 可控图像生成:引入生成分割作为编辑,使得精确的像素级控制成为可能。该模型在 GenEval 基准测试中获得了 *0.90* 的分数。 2. 流媒体视频理解:增强了详细和无缝的视听理解能力。 3. 方言识别:在中文方言 ASR 中达到 SOTA 性能,展示了在多种方言(如湘语、粤语和闽南语)中的熟练程度。 #OpenSourceModels