Detta är mycket intressant från 'MMaDA-Parallel: Multimodala stora diffusionsspråkmodeller för tänkningsmedveten redigering och generering'