#PaperADay 3 (hopend dat ingesloten links genoeg deboosten zodat niet te veel mensen zich aan deze inhoud storen) @ylecun is recentelijk actueel geweest, dus vandaag heb ik het volgende doorgenomen: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture Ik ben het in grote lijnen eens met het idee dat de belangrijke voorspellingen van interne representaties zijn, niet van pixels, dus generatieve modellen kunnen enigszins contraproductief zijn, of op zijn minst onnodig inefficiënt voor veel taken. Echter, ik denk dat de interne voorspelling op een meer gedetailleerd niveau moet plaatsvinden dan volledige beeldverwerking, op het niveau van minicolumnen of zelfs neuronen, en met meer van een temporeel component dan lokale masking. Zelfsupervised training werkt op een grote dataset zonder idee wat er later van het model gevraagd zal worden, gewoon kennis opbouwen uit de data. Daarna kun je een eenvoudige lineaire classifier (lineaire probe) trainen op de output en behoorlijk goede prestaties behalen. De beste lineaire probes op bevroren zelfsupervised modellen zijn niet zo sterk als end-to-end getrainde classifiers, maar dezelfde SSM kan sterk zijn voor veel verschillende taken tegelijk. Het artikel merkt op dat in tegenstelling tot JEPA, invariantie-gebaseerde trainingsmethoden die hetzelfde beeld nemen en het op twee verschillende manieren augmenteren terwijl ze representatieve gelijkenis behouden, hun prestaties behalen ten koste van een door de onderzoeker bevooroordeeld set van beeldaugmentaties, wat niet overdraagbaar is naar andere modaliteiten zoals audio of tekst. Ik merk op dat JEPA zeer gevoelig is voor de exacte masking die wordt uitgevoerd (tabel 6), wat niet te veel anders aanvoelt. De target encoder lijkt oppervlakkig op de moderne formulering van het target model in DQN RL-netwerken met een EMA van de gewichten in plaats van een occasionele kopie, maar terwijl het een stabiliteitsaid was voor RL (en niet altijd nodig is), heeft het hier een meer fundamenteel doel om te voorkomen dat het model representaties in triviaal te voorspellen vormen laat instorten. Dit, samen met LayerNorm dat ook een cruciaal element daarvan is, wordt niet expliciet in het artikel vermeld, en ik moest elders naar verwijzingen zoeken. Het is een beetje eigenaardig dat ze een willekeurige crop van 0.85-1.0 op de context toepassen, maar alleen blokken van rechts en onder verwijderen. Ik verwachtte een ablation van die crop te zien. Het verhogen van de beeldresolutie is een beetje een vreemde manier om het model te schalen. Het is waarschijnlijk niet echt de resolutie die helpt, maar het totale aantal patches. Er is een grote hoeveelheid werk over zelfsupervisie waar ik slechts vaag mee bekend ben, dus ik mis waarschijnlijk enkele belangrijke onderscheidende aspecten van JEPA. Ik worstel nog steeds met de kernvraag van precies wat de contexten leren, en hoe de modelarchitectuur en training het wegsturen van instorting begeleiden.