🙌 Le monde LLM any-to-any accueille Ming-flash-omni-preview, présentant une architecture puissante 103B-A9B rendue très efficace grâce à MoE sparse. Cela établit une nouvelle référence pour la performance omni-modale open-source en compréhension et génération : 1. Génération d'Images Contrôlable : Introduction de la Segmentation Générative en tant qu'Édition, qui permet un contrôle précis au niveau des pixels. Le modèle a atteint un score de *0.90* sur le benchmark GenEval. 2. Compréhension Vidéo en Streaming : Capacités améliorées pour une compréhension audio-visuelle détaillée et fluide. 3. Reconnaissance de Dialectes : Atteignant des performances SOTA en ASR de Dialecte Chinois, démontrant une maîtrise à travers divers dialectes tels que le Hunanese, le Cantonais et le Minnanais. #OpenSourceModels