"Гипотеза Призмы" Этот новый документ показывает, что смысл изображения в основном живет в низкочастотных сигналах, в то время как детали, такие как текстуры, находятся в высоких частотах. Используя это разделение, авторы создают одно латентное пространство, которое поддерживает как понимание (в стиле CLIP), так и генерацию (в стиле VAE), так что больше не нужно выбирать между семантикой и точностью.