🙌Мир LLM любого к любому приветствует Ming-flash-omni-preview, который оснащен мощной архитектурой 103B-A9B, сделанной высокоэффективной благодаря разреженному MoE. Он устанавливает новую планку для производительности открытого исходного кода в области омни-модального понимания и генерации: 1. Контролируемая генерация изображений: Введение генеративной сегментации как редактирования, что позволяет точный контроль на уровне пикселей. Модель достигла оценки *0.90* на бенчмарке GenEval. 2. Понимание потокового видео: Улучшенные возможности для детального и бесшовного аудиовизуального восприятия. 3. Распознавание диалектов: Достижение SOTA производительности в ASR китайских диалектов, демонстрируя мастерство в различных диалектах, таких как хунаньский, кантонский и миньнаньский. #OpenSourceModels