Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI di Keen Technologies, mantan CTO Oculus VR, Pendiri Id Software dan Armadillo Aerospace
#PaperADay 3 (berharap tautan yang disematkan cukup deboost sehingga tidak terlalu banyak orang yang terganggu dengan konten ini)
@ylecun telah menjadi topikal baru-baru ini, jadi hari ini saya membahas:
Belajar Diri dari Gambar dengan Arsitektur Prediktif yang Disematkan Bersama
Saya secara luas setuju dengan gagasan bahwa prediksi penting adalah representasi internal, bukan piksel, sehingga model generatif mungkin agak kontraproduktif, atau setidaknya tidak perlu untuk banyak tugas.
Namun, saya cenderung berpikir bahwa prediksi internal harus terjadi pada tingkat yang lebih terperinci daripada pemrosesan gambar penuh, pada minikolom atau bahkan tingkat saraf, dan dengan lebih banyak komponen temporal daripada penyamaran lokal.
Pelatihan yang diawasi sendiri bekerja pada kumpulan data besar tanpa tahu apa yang akan diminta dari model nanti, hanya membangun pengetahuan dari data. Setelah itu, Anda dapat melatih pengklasifikasi linier sederhana (probe linier) pada output dan mendapatkan kinerja yang cukup baik. Probe linier terbaik pada model yang diawasi sendiri yang dibekukan tidak sekuat pengklasifikasi terlatih end-to-end, tetapi SSM yang sama persis dapat menjadi kuat untuk banyak tugas berbeda pada saat yang bersamaan.
Makalah tersebut mencatat bahwa berbeda dengan JEPA, metode pelatihan berbasis Invarians yang mengambil gambar yang sama dan menambahkannya dua cara berbeda sambil mempertahankan kesamaan representasional mendapatkan kinerjanya dengan mengorbankan serangkaian augmentasi gambar yang bias peneliti, yang tidak ditransfer ke modalitas lain seperti audio atau teks. Saya mencatat bahwa JEPA sangat sensitif terhadap masking yang tepat yang dilakukan (tabel 6), yang tidak terasa terlalu berbeda.
Encoder target secara dangkal mirip dengan formulasi modern model target dalam jaringan DQN RL dengan EMA bobot alih-alih salinan sesekali, tetapi meskipun itu adalah bantuan stabilitas untuk RL (dan tidak selalu diperlukan), ia memiliki tujuan yang lebih mendasar di sini untuk mencegah model meruntuhkan representasi menjadi representasi sepele untuk memprediksi. Ini, bersama dengan LayerNorm juga menjadi elemen penting dari itu, tidak dijabarkan dalam makalah, dan saya harus mencari referensi di tempat lain.
Agak unik bahwa mereka menerapkan pemotongan 0,85-1,0 secara acak ke konteks, tetapi hanya menghapus blok dari kanan dan bawah. Saya berharap untuk melihat ablasi tanaman itu.
Meningkatkan resolusi gambar adalah cara yang agak aneh untuk menskalakan model. Mungkin bukan resolusi yang benar-benar membantu, tetapi jumlah total tambalan.
Ada banyak pekerjaan tentang pengawasan diri yang hanya saya kenal samar-samar, jadi saya mungkin kehilangan beberapa aspek pembeda utama dari JEPA. Saya masih bergulat dengan pertanyaan inti tentang apa yang dipelajari konteks, dan bagaimana arsitektur model dan pelatihan membimbingnya menjauh dari keruntuhan.
228
Alangkah baiknya jika beberapa diaspora Twitter kembali. Begitu banyak kreatif, tetapi juga banyak pengembang, yang umumnya memperkaya pengalaman tidak lagi aktif.
Mereka yang secara performatif pergi dan mereka yang memiliki kebencian terhadap Elon mungkin tidak akan segera kembali, tetapi banyak orang hanya melepaskan diri dengan alasan budaya yang tidak jelas yang dapat dievaluasi kembali.
Mungkin ada beberapa penyesuaian teknis pada algoritme yang dapat membuat mereka lebih nyaman. Saya tidak keberatan dengan keberadaan ruang gema independen di mana orang-orang bahagia. Hanya ada masalah ketika beberapa ruang gema diizinkan dan yang lain tidak.
Jangkau teman-teman yang sudah meninggal!
136
Teratas
Peringkat
Favorit
