"棱镜假说" 这篇新论文表明,图像的意义主要存在于低频信号中,而像纹理这样的细节则存在于高频信号中。 通过利用这种分裂,作者构建了一个单一的潜在空间,支持理解(CLIP风格)和生成(VAE风格),因此不再需要在语义和保真度之间进行权衡。