#PaperADay 3(希望嵌入的連結能夠降低曝光率,讓不會有太多人對這個內容感到厭煩) @ylecun 最近成為熱門話題,所以今天我閱讀了: 《從圖像中進行自我監督學習的聯合嵌入預測架構》 我大致上同意重要的預測是內部表示,而不是像素,因此生成模型對於許多任務來說可能有些適得其反,或者至少在效率上不必要地低下。 然而,我傾向於認為內部預測必須在比完整圖像處理更細緻的層面上進行,至少在小柱或甚至神經層面上,並且需要有比局部遮罩更多的時間組件。 自我監督訓練在一個大型數據集上運作,對於模型後續會被要求什麼並沒有任何概念,只是從數據中建立知識。之後,你可以在輸出上訓練一個簡單的線性分類器(線性探針),並獲得相當不錯的表現。對於凍結的自我監督模型,最佳的線性探針並不如端到端訓練的分類器強,但同樣的SSM可以同時對許多不同的任務表現良好。 論文指出,與JEPA相比,基於不變性的訓練方法在保持表示相似性的同時,對同一圖像進行兩種不同的增強,其性能是以研究者偏見的圖像增強集為代價的,這無法轉移到音頻或文本等其他模態。我注意到JEPA對於執行的具體遮罩非常敏感(表6),這感覺並沒有太大不同。 目標編碼器在表面上與DQN RL網絡中目標模型的現代表述相似,使用EMA的權重而不是偶爾的複製,但雖然這對於RL來說是一種穩定性輔助(並不總是必要),但在這裡有一個更根本的目的,即防止模型將表示崩潰為容易預測的形式。這一點,加上LayerNorm也是其中一個關鍵元素,論文中並沒有明確說明,我不得不在其他地方找到相關參考。 有點古怪的是,他們對上下文應用隨機的0.85-1.0裁剪,但只從右側和底部移除區塊。我原本預期會看到對該裁剪的消融實驗。 提高圖像解析度是一種有點奇怪的模型擴展方式。實際上幫助的可能不是解析度,而是總的補丁數量。 關於自我監督的研究文獻龐大,我對此僅有模糊的了解,因此我可能錯過了一些JEPA的關鍵區別方面。我仍在努力理解上下文究竟學到了什麼,以及模型架構和訓練如何引導它避免崩潰。