Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (berharap tautan yang disematkan cukup deboost sehingga tidak terlalu banyak orang yang terganggu dengan konten ini)
@ylecun telah menjadi topikal baru-baru ini, jadi hari ini saya membahas:
Belajar Diri dari Gambar dengan Arsitektur Prediktif yang Disematkan Bersama
Saya secara luas setuju dengan gagasan bahwa prediksi penting adalah representasi internal, bukan piksel, sehingga model generatif mungkin agak kontraproduktif, atau setidaknya tidak perlu untuk banyak tugas.
Namun, saya cenderung berpikir bahwa prediksi internal harus terjadi pada tingkat yang lebih terperinci daripada pemrosesan gambar penuh, pada minikolom atau bahkan tingkat saraf, dan dengan lebih banyak komponen temporal daripada penyamaran lokal.
Pelatihan yang diawasi sendiri bekerja pada kumpulan data besar tanpa tahu apa yang akan diminta dari model nanti, hanya membangun pengetahuan dari data. Setelah itu, Anda dapat melatih pengklasifikasi linier sederhana (probe linier) pada output dan mendapatkan kinerja yang cukup baik. Probe linier terbaik pada model yang diawasi sendiri yang dibekukan tidak sekuat pengklasifikasi terlatih end-to-end, tetapi SSM yang sama persis dapat menjadi kuat untuk banyak tugas berbeda pada saat yang bersamaan.
Makalah tersebut mencatat bahwa berbeda dengan JEPA, metode pelatihan berbasis Invarians yang mengambil gambar yang sama dan menambahkannya dua cara berbeda sambil mempertahankan kesamaan representasional mendapatkan kinerjanya dengan mengorbankan serangkaian augmentasi gambar yang bias peneliti, yang tidak ditransfer ke modalitas lain seperti audio atau teks. Saya mencatat bahwa JEPA sangat sensitif terhadap masking yang tepat yang dilakukan (tabel 6), yang tidak terasa terlalu berbeda.
Encoder target secara dangkal mirip dengan formulasi modern model target dalam jaringan DQN RL dengan EMA bobot alih-alih salinan sesekali, tetapi meskipun itu adalah bantuan stabilitas untuk RL (dan tidak selalu diperlukan), ia memiliki tujuan yang lebih mendasar di sini untuk mencegah model meruntuhkan representasi menjadi representasi sepele untuk memprediksi. Ini, bersama dengan LayerNorm juga menjadi elemen penting dari itu, tidak dijabarkan dalam makalah, dan saya harus mencari referensi di tempat lain.
Agak unik bahwa mereka menerapkan pemotongan 0,85-1,0 secara acak ke konteks, tetapi hanya menghapus blok dari kanan dan bawah. Saya berharap untuk melihat ablasi tanaman itu.
Meningkatkan resolusi gambar adalah cara yang agak aneh untuk menskalakan model. Mungkin bukan resolusi yang benar-benar membantu, tetapi jumlah total tambalan.
Ada banyak pekerjaan tentang pengawasan diri yang hanya saya kenal samar-samar, jadi saya mungkin kehilangan beberapa aspek pembeda utama dari JEPA. Saya masih bergulat dengan pertanyaan inti tentang apa yang dipelajari konteks, dan bagaimana arsitektur model dan pelatihan membimbingnya menjauh dari keruntuhan.
Teratas
Peringkat
Favorit
