"Die Prism-Hypothese" Dieses neue Papier zeigt, dass die Bildbedeutung hauptsächlich in niederfrequenten Signalen lebt, während Details wie Texturen in hochfrequenten Signalen leben. Durch die Ausnutzung dieser Trennung bauen die Autoren einen einzigen latenten Raum auf, der sowohl Verständnis (CLIP-Stil) als auch Generierung (VAE-Stil) unterstützt, sodass es keinen Kompromiss mehr zwischen Semantik und Treue gibt.