"La Hipótesis del Prisma" Este nuevo artículo muestra que el significado de la imagen reside principalmente en señales de baja frecuencia, mientras que los detalles como las texturas se encuentran en frecuencias altas. Al explotar esta división, los autores construyen un único espacio latente que soporta tanto la comprensión (estilo CLIP) como la generación (estilo VAE), por lo que ya no hay más compensación entre semántica y fidelidad.