Lavida-O Elastiska stora maskerade diffusionsmodeller för enhetlig multimodal förståelse och generering