Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI hos Keen Technologies, tidligere CTO Oculus VR, grunnlegger av Id Software og Armadillo Aerospace
#PaperADay 3 (håper innebygde lenker reduserer nok boost til at ikke så mange blir irritert over dette innholdet)
@ylecun har vært aktuell i det siste, så i dag gikk jeg gjennom:
Selvsupervisert læring fra bilder med en felles innbygging av prediktiv arkitektur
Jeg er stort sett enig i ideen om at de viktige prediksjonene handler om interne representasjoner, ikke piksler, så generative modeller kan være noe kontraproduktive, eller i det minste unødvendig ineffektive for mange oppgaver.
Men jeg har en tendens til å tenke at den interne prediksjonen må skje på et mer detaljert nivå enn full bildebehandling, på minikolonne- eller til og med nevralt nivå, og med en mer tidsmessig komponent enn lokal maskering.
Selvsupervisert trening jobber med et stort datasett uten anelse om hva som vil bli spurt av modellen senere, og bygger bare opp kunnskap fra dataene. Etterpå kan du trene en enkel lineær klassifikator (lineær probe) på utgangen og få ganske god ytelse. De beste lineære probene på frosne selvsuperviserte modeller er ikke like sterke som ende-til-ende-trente klassifikatorer, men nøyaktig samme SSM kan være sterk for mange forskjellige oppgaver samtidig.
Artikkelen påpeker at i motsetning til JEPA, får invariansbaserte treningsmetoder som tar det samme bildet og forsterker det på to forskjellige måter samtidig som de opprettholder representasjonslikhet, sin ytelse på bekostning av et forsker-biased sett med bildeforsterkninger, som ikke overføres til andre modaliteter som lyd eller tekst. Jeg legger merke til at JEPA er veldig følsom for nøyaktig hvilken maskering som utføres (tabell 6), som ikke føles så annerledes.
Målkoderen ligner overfladisk på den moderne formuleringen av målmodellen i DQN RL-nettverk med en EMA av vektene i stedet for en sporadisk kopi, men selv om den var et stabilitetshjelpemiddel for RL (og ikke alltid nødvendig), har den et mer grunnleggende formål her: å forhindre at modellen kollapser representasjoner til trivielle å forutsi. Dette, sammen med at LayerNorm også er et avgjørende element i dette, er ikke beskrevet i artikkelen, og jeg måtte finne referanser til det andre steder.
Litt merkelig at de bruker en tilfeldig 0,85-1,0 beskjæring i konteksten, men bare fjerner blokker fra høyre og bunn. Jeg forventet å se en ablasjon av den avlingen.
Å øke bildeoppløsningen er en litt merkelig måte å skalere modellen på. Det er sannsynligvis ikke selve oppløsningen som hjelper, men total antall patcher.
Det finnes et stort arbeid om selvveiledning som jeg bare er vagt kjent med, så jeg overser nok noen viktige kjennetegn ved JEPA. Jeg sliter fortsatt med kjernespørsmålet om nøyaktig hva kontekstene lærer, og hvordan modellarkitekturen og treningen leder det bort fra kollaps.
407
Det hadde vært fint om noe av Twitter-diasporaen kom tilbake. Så mange kreative, men også mange utviklere, som generelt beriket opplevelsen, er ikke lenger aktive.
De som performativt forlot og de som har et brennende hat mot Elon, kommer sannsynligvis ikke tilbake med det første, men mange har bare trukket seg ut på vage kulturelle grunnlag som kan revurderes.
Det er sannsynligvis noen tekniske justeringer i algoritmen som kan gjøre dem mer komfortable. Jeg har ikke noe imot eksistensen av uavhengige ekkokamre som folk trives i. Det er bare et problem når noen ekkokamre er tillatt og andre ikke.
Ta kontakt med tidligere venner!
148
Topp
Rangering
Favoritter
