"A Hipótese do Prisma" Este novo artigo mostra que o significado da imagem vive principalmente em sinais de baixa frequência, enquanto detalhes como texturas vivem em altas frequências Ao explorar essa divisão, os autores constroem um único espaço latente que suporta tanto compreensão (estilo CLIP) quanto geração (estilo VAE), assim não há mais troca entre semântica e fidelidade