トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yann LeCun と Randall Balestriero による新しい LeJEPA 論文を読んでください。特にLLMに対する彼の批判のすべてを考慮すると、Yannが最近何に取り組んでいるのか知りたいと思っています(LLMは改善され続け、かなり近いうちにASIに連れて行ってくれると思うので、私は同意しません)。
とにかく、Xにはすでにこの論文とそれが紹介する内容についていくつかのスレッドがあります。簡単に言うと、これは自己教師あり学習に対する原則的で理論的に正当化され、倹約的なアプローチであり、自己教師あり学習の悩みの種であるモード崩壊を防ぐためのアドホックでハッキーなヒューリスティックの複雑な寄せ集めに取って代わるものです。
そこでモデルが失敗し、すべての入力をほぼ同一の埋め込みまたは埋め込みの狭い部分空間にマッピングし始め、問題のすべての豊かさを病的に単純で間違った対応に崩壊させます。
新しいアプローチの最初の柱は、等方性ガウス分布が最悪の場合の下流予測リスクを独自に最小限に抑えるという証拠です。
それを読むとすぐに、最小化しようとしている関数の勾配にアクセスできないが、(高価で遅い)関数評価しか実行できない場合に、利用可能な最高のブラックボックス最適化アルゴリズムであるCMA-ESをすぐに思い浮かべました。
ニコラウス・ハンセンは、1996年にCMA-ESを導入して以来、CMA-ESに取り組んできました。私は常にこのアプローチに魅了されており、2011 年に非効率的なグリッド検索を行う代わりに、ディープ ニューラル ネットのハイパー パラメーターを効率的に探索するためにこのアプローチを使用して多くの成功を収めました。
とにかく、私がこの問題を取り上げる理由は、そのアプローチとLeJEPAの中核との間には驚くべき類似点と深いつながりがあるからです。
CMA-ESは次のように述べています:分散制約のみが与えられた場合、等方性ガウス分布は最大エントロピー(最も偏りが少ない)分布であるため、開始します。次に、共分散を調整して、問題のジオメトリを学習します。
LeJEPAは言います:等方性ガウスは、未知の将来のタスクに対する最大エントロピー(最も偏りが少ない)分布であるため、維持します。
どちらも、次の 3 つの理由から、等方性が不確実性の下で最適であることを認識しています。
最大エントロピーの原理。分散が固定されているすべての分布の中で、等方性ガウスは最大エントロピーを持ちます。つまり、最も少ない仮定を行います。
方向性バイアスはありません。すべての方向で等しい分散は、特定の問題構造に事前にコミットしないことを意味します。
最悪の場合の最適性が得られます。考えられるすべての問題ジオメトリで最大の後悔を最小限に抑えます。
では、何が違うのでしょうか?それは適応のタイミングに帰着します。CMA-ESは最適化中に適応できます。最初は等方性ですが、特定の最適化ランドスケープを学習すると異方性になります。
対照的に、LeJEPAは、まだ見られていない未知の下流タスクに備えているため、等方性を維持する必要があります。
...

トップ
ランキング
お気に入り

