🙌De LLM any-to-any wereld verwelkomt Ming-flash-omni-preview, met een krachtige 103B-A9B architectuur die zeer efficiënt is gemaakt door sparse MoE. Het stelt een nieuwe benchmark vast voor open-source omni-modale prestaties in begrip en generatie: 1. Controleerbare Beeldgeneratie: Introductie van Generative Segmentation-as-Editing, waarmee nauwkeurige, pixel-niveau controle mogelijk is. Het model behaalde een score van *0.90* op de GenEval benchmark. 2. Streaming Video Begrip: Verbeterde mogelijkheden voor gedetailleerd en naadloos audio-visueel begrip. 3. Dialectherkenning: Het behalen van SOTA-prestaties in Chinese Dialect ASR, wat de bekwaamheid aantoont in diverse dialecten zoals Hunanese, Cantonees en Minnanese. #OpenSourceModels