🙌Il mondo LLM any-to-any dà il benvenuto a Ming-flash-omni-preview, caratterizzato da un potente architettura 103B-A9B resa altamente efficiente grazie a sparse MoE. Stabilisce un nuovo benchmark per le prestazioni omni-modali open-source nella comprensione e generazione: 1. Generazione di Immagini Controllabile: Introduzione della Segmentazione Generativa come Editing, che consente un controllo preciso a livello di pixel. Il modello ha raggiunto un punteggio di *0.90* sul benchmark GenEval. 2. Comprensione di Video in Streaming: Capacità migliorate per una comprensione audio-visiva dettagliata e senza soluzione di continuità. 3. Riconoscimento dei Dialetti: Raggiungendo prestazioni SOTA nell'ASR dei Dialetti Cinesi, dimostrando competenza attraverso diversi dialetti come Hunanese, Cantonese e Minnanese. #OpenSourceModels