DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Hai! Cara baru untuk melatih jaringan saraf: berdasarkan penataan ulang ide-ide AI lama yang dicampur dengan video game "save scumming". Ini adalah cara untuk memaksakan "tendangan" yang dapat menyelamatkan jenis model tertentu (terutama topologi kecil atau eksotis) saat mereka macet. Buta. Evolusi. Tekanan.

Saya menyebutnya "Frustrasi": ini seperti memulai ulang video game yang disimpan & mencoba kembali pertempuran bos. Bagaimana? Ambil zaman Last Known Good (LKG), KEMUDIAN Anda membunuh neuron. Kemudian latih kembali. Tidak seperti Dropout, kerusakannya bukan kebisingan sementara selama batch. Kami merusak model SETELAH membaik.

Dalam Frustrasi (Ablasi [Stokastik] Persisten), kerusakannya adalah lubang yang harus dihindari dan diisi pada saat yang sama selama zaman berikutnya. 2 strategi: Bunuh semua bobot (seperti di lapisan tersembunyi) untuk neuron, atau hanya yang masuk (seperti untuk logit keluaran).

Kami menguji dengan topologi jaringan MLP sederhana, mulai dari jutaan parameter hingga ratusan, membuat katalog "kemampuan terlatih" mereka berdasarkan lebar (# neuron) versus kedalaman (# lapisan). PSA menyelamatkan beberapa model yang tidak bisa dilakukan oleh Dropout & Weight Decay: rezim yang kacau (berwarna biru).

Ini berfungsi bahkan dalam desain yang rusak di mana Masalah Gradien Menghilang membuat propagasi balik tidak berguna. (Yang, ketika Anda tidak memiliki koneksi lewati, tidak banyak lapisan!) Selain itu, Anda dapat membelah kerusakan dan melatih beberapa LKG yang rusak sekaligus di berbagai GPU.

Makalah ini mencerminkan bukti konsep pertama, dan ya, seluruh ide memiliki *banyak* keterbatasan. Terutama betapa borosnya ratchet secara komputasi, atau bahwa itu ada di dataset MNIST (mainan) dan bukan ImageNet. Tapi kabar baik! Tes ResMLP awal menunjukkan hasil yang menjanjikan!

Kami mencoba untuk menyeluruh. Kami menguji 98 topologi, banyak di antaranya dengan konfigurasi pencocokan parameter (dimensi berbeda, jumlah parameter hasil yang sama). Kami mengukur 3 teknik PSA diff terhadap 3 kontrol, masing-masing lebih dari 10 percobaan. Sebanyak 5.880 uji coba. Direproduksi.

Bahkan dalam kondisi di mana Masalah Gradien Menghilang seharusnya membuat pelatihan tidak mungkin (seperti dalam MLP sederhana 18x18), PSA dapat melatih dengan menyerang log keluaran di MNIST. Tidak percaya padaku? Cobalah dan lihat!

Ada banyak momen "aha" kecil yang keren di sini. Perlu diingat, tidak ada ide yang mendasarinya yang baru. Kami baru saja mengaturnya dengan cara baru untuk mencoba sesuatu yang benar-benar hanya layak sekarang karena GPU sangat kuat.

Pekerjaan masa depan: • Reproduksi tes asli pada ResMLP, CNN, & Transformers (ResMLP memperbaiki VGP, tetapi untuk topologi patologis sepertinya PSA masih membantu) • Mencobanya di ImageNet <- mahal, tetapi ini adalah bukti nyata yang kami butuhkan.

Pengamatan: • Membunuh logit keluaran yang sama secara konsisten menciptakan model "anti-ahli", dan ketika Anda melihat matriks kebingungan mereka, Anda dapat melihat disleksia beraksi (bunuh 2 dan klasifikasi meluap ke 5, 7, dan 8) • Kita tidak harus terjebak dengan serangan stokastik

Mengapa ini berharga? • Jika bekerja pada kumpulan data yang lebih besar dan arsitektur model modern, maka saya harap itu mungkin menjadi alat yang berharga dalam membangun Model Bahasa Kecil (SLM).

GitHub dengan kertas & kode di sini:

1,52K

Teratas

Peringkat

Favorit