"L'Ipotesi Prismatica" Questo nuovo documento mostra che il significato delle immagini vive principalmente nei segnali a bassa frequenza, mentre i dettagli come le texture vivono nelle alte frequenze. Sfruttando questa divisione, gli autori costruiscono uno spazio latente unico che supporta sia la comprensione (stile CLIP) che la generazione (stile VAE), quindi non ci sono più compromessi tra semantica e fedeltà.