#PaperADay 3(希望嵌入链接的降权足够,不会让太多人对这些内容感到烦恼) @ylecun 最近很受关注,所以今天我阅读了: 《基于联合嵌入预测架构的图像自监督学习》 我大体上同意重要的预测是内部表征,而不是像素,因此生成模型在许多任务中可能有些适得其反,或者至少在效率上不必要地低下。 然而,我倾向于认为内部预测必须在比完整图像处理更细粒度的层面上进行,至少在小柱或神经层面上,并且具有比局部掩蔽更多的时间成分。 自监督训练在一个大型数据集上进行,对模型后续会被问到什么没有任何想法,只是从数据中积累知识。之后,你可以在输出上训练一个简单的线性分类器(线性探针),并获得相当不错的性能。冻结的自监督模型上的最佳线性探针不如端到端训练的分类器强,但同样的SSM可以同时在许多不同任务中表现出色。 论文指出,与JEPA相比,基于不变性的训练方法在保持表征相似性的同时,对同一图像进行两种不同方式的增强,其性能是以研究者偏向的图像增强集为代价的,这种增强无法转移到音频或文本等其他模态。我注意到JEPA对执行的确切掩蔽非常敏感(表6),这感觉并没有太大不同。 目标编码器在表面上与DQN RL网络中目标模型的现代表述相似,使用权重的EMA而不是偶尔的复制,但虽然它是RL的稳定性辅助(并不总是必要),但在这里有一个更根本的目的,即防止模型将表征崩溃为容易预测的形式。这一点,以及LayerNorm也是其中一个关键元素,在论文中并没有明确说明,我不得不在其他地方找到相关参考。 有点奇怪的是,他们对上下文应用了随机的0.85-1.0裁剪,但只从右侧和底部移除块。我原本期待看到对该裁剪的消融实验。 提高图像分辨率是一种有点奇怪的模型扩展方式。实际上,帮助的可能不是分辨率,而是总的补丁数量。 关于自监督的研究工作量很大,我只对其有模糊的了解,所以我可能错过了一些JEPA的关键区分方面。我仍在努力理解上下文究竟学到了什么,以及模型架构和训练如何引导其避免崩溃。