Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Baca saja makalah LeJEPA baru oleh Yann LeCun dan Randall Balestriero. Saya penasaran ingin tahu apa yang sedang dikerjakan Yann akhir-akhir ini, terutama mengingat semua kritiknya terhadap LLM (yang saya tidak setujui, karena saya pikir LLM akan terus meningkat dan akan membawa kami ke ASI segera).
Bagaimanapun, ada beberapa utas yang sudah ada di X tentang kertas dan apa yang diperkenalkannya. Versi singkatnya adalah bahwa ini adalah pendekatan yang berprinsip, dibenarkan secara teoritis, dan hemat untuk pembelajaran yang diawasi sendiri yang menggantikan gado-gado kompleks ad-hoc, heuristik hacky untuk mencegah keruntuhan mode, yang merupakan kutukan pembelajaran yang diawasi sendiri.
Di situlah model mengacaukan dan mulai memetakan semua input ke penyematan yang hampir identik atau ke subruang penyematan yang sempit, meruntuhkan semua kekayaan masalah menjadi korespondensi yang sederhana dan salah secara patologis.
Pilar pertama dari pendekatan baru ini adalah bukti bahwa distribusi Gaussian isotropik secara unik meminimalkan risiko prediksi hilir kasus terburuk.
Segera setelah saya membacanya, saya langsung memikirkan CMA-ES, algoritma pengoptimalan kotak hitam terbaik yang tersedia ketika Anda tidak memiliki akses ke gradien fungsi yang Anda coba minimalkan, tetapi hanya dapat melakukan evaluasi fungsi (mahal/lambat).
Nikolaus Hansen telah mengerjakan CMA-ES sejak ia memperkenalkannya pada tahun 1996. Saya selalu terpesona oleh pendekatan ini dan menggunakannya dengan banyak keberhasilan untuk mengeksplorasi hiper-parameter jaringan saraf dalam secara efisien pada tahun 2011 alih-alih melakukan pencarian grid yang tidak efisien.
Bagaimanapun, alasan mengapa saya mengemukakannya adalah karena ada paralel yang mencolok dan hubungan mendalam antara pendekatan itu dan inti LeJEPA.
CMA-ES mengatakan: Mulailah dengan Gaussian isotropik karena itu adalah distribusi entropi maksimum (paling tidak bias) yang hanya diberikan batasan varians. Kemudian sesuaikan kovarians untuk mempelajari geometri masalah.
LeJEPA mengatakan: Pertahankan Gaussian isotropik karena itu adalah distribusi entropi maksimum (paling tidak bias) untuk tugas masa depan yang tidak diketahui.
Keduanya mengakui bahwa isotropi optimal di bawah ketidakpastian karena tiga alasan:
Prinsip entropi maksimum; Di antara semua distribusi dengan varians tetap, Gaussian isotropik memiliki entropi maksimum; Artinya, itu membuat asumsi paling sedikit.
Tidak ada bias arah; Varians yang sama di segala arah berarti Anda tidak berkomitmen sebelumnya pada struktur masalah tertentu.
Anda mendapatkan optimalitas terburuk; Minimalkan penyesalan maksimum di semua kemungkinan geometri masalah.
Jadi lalu apa bedanya? Itu bermuara pada waktu adaptasi. CMA-ES dapat beradaptasi selama pengoptimalan; Ini mulai isotropik tetapi kemudian menjadi anisotropik saat mempelajari lanskap pengoptimalan tertentu.
Sebaliknya, LeJEPA harus tetap isotropik karena sedang mempersiapkan tugas hilir yang belum diketahui yang belum terlihat.
...

Teratas
Peringkat
Favorit

