"棱鏡假說" 這篇新論文顯示,圖像的意義主要存在於低頻信號中,而像紋理這樣的細節則存在於高頻中。 通過利用這種分裂,作者建立了一個單一的潛在空間,支持理解(CLIP風格)和生成(VAE風格),因此不再需要在語義和真實性之間進行權衡。