こんにちは!ニューラルネットワークの新しい訓練方法:古いAIのアイデアの再配置とビデオゲームの「セーブスカミング」を組み合わせたものです。 これは、特定のモデルタイプ(特に小型または特殊なトポロジー)が詰まったときに救うための「キック」を強制する方法です。 盲。進化。圧力。
私はこれを「フラストレーション」と呼んでいます。まるでセーブしたビデオゲームを再起動してボス戦をやり直すようなものです。 どう。 最後の既知の良さ(LKG)の時代を取ってから、ニューロンを殺します。その後、再訓練をしましょう。 Dropoutとは異なり、ダメージはバッチ中の一時的なノイズではありません。 モデルが改善された後に壊します。
フラストレーション(持続的[確率的]アブレーション)では、ダメージは穴ぼこのようなもので、次のエポックの間に同時に避けて埋めなければなりません。 2つの戦略があります:ニューロンの重み(隠れた層のように)をすべて殺すか、入力する重みだけを殺す(出力ロジットのように)。
私たちは、数百万から数百のパラメータから数百の単純なMLPネットワークトポロジーを用いて、その「訓練可能性」を幅(#ニューロン)と深さ(#層)に基づいて分類しました。 PSAはDropout and Weight Decayでは救えなかったモデルを救いました:カオティック・レリーム(青色)。
これは、消失勾配問題によって逆伝播が無意味になる壊れた設計でも機能します。 (スキップ接続がなければ、それほど多くのレイヤーではありません!) また、ダメージを分割して複数の破損したLKGを異なるGPUで同時に訓練することも可能です。
論文は最初の概念実証を反映しており、はい、アイデア全体に*多くの*制限があります。 特に、ラチェットが計算負荷が非常に大きいことや、それがMNISTデータセット(おもちゃ)に載っていてImageNetに載っていなかったことについてです。 でも朗報です!初期のResMLPテストでは有望な結果が示されています!
私たちは徹底的に調べようとしました。私たちは98のトポロジーをテストし、その多くはパラメータマッチング構成(異なる次元、同じパラメータ数)を持っていました。 3つの異なるPSA技術を3人の対照群に対して測定し、それぞれ10件以上の試験を行いました。 合計5,880件の試験。 再現。
消滅勾配問題で訓練が不可能であるはずの条件下(例えば18x18の単純なMLPなど)でも、PSAはMNISTの出力ログを攻撃することで訓練を行うことができました。 信じられない?試してみて確かめてみてください!
ここには「なるほど!」と思えるクールな瞬間がたくさんあります。念頭に置いておいてください、根底にあるアイデアは決して新しいものではありません。GPUが非常に高性能になった今、実際に実現可能なことを試みるために、新しい方法で配置しただけです。
今後の活動: • ResMLP、CNN、トランスフォーマーでの元のテストの再現(ResMLPはVGPを修正しますが、病的トポロジーについてはPSAが依然として役立つようです) ・ImageNetで試すのは<高くつくが、これが本当の証拠だ。
観測: ・同じ出力Logitを殺すと「アンチエキスパート」モデルが一貫して生成され、混乱マトリックスを見るとディスレクシアが働いていることがわかります(キル2で分類が5、7、8にオーバーフロー) • 確率攻撃に固執する必要はありません
なぜこれが価値があるのでしょうか? ・もし大規模なデータセットや最新のモデルアーキテクチャで動作するなら、小規模言語モデル(SLM)構築において価値あるツールになることを願っています。
論文とコードはこちらのGitHubです:
1.52K