トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3(埋め込みリンクが十分に効果を減らして、このコンテンツに多くの人が不満を抱かないことを願っています)
最近話題@ylecunなので、今日は以下の内容を紹介しました:
画像からの自己教師あり学習(ジョイント埋め込み予測アーキテクチャ付き)
重要な予測はピクセルではなく内部表現に関するものだという考えには概ね同意します。したがって、生成モデルは多くのタスクにおいてやや逆効果か、少なくとも不必要に非効率的である可能性があると考えます。
しかし、内部予測は完全な画像処理よりも細かいレベルで行われ、ミニカラムレベルや神経レベルで行われ、局所的なマスキングよりも時間的な要素が強い必要があると考えています。
自己監督型トレーニングは、後でモデルに何を求められるか分からず、データから知識を積み上げるだけの大規模なデータセットで作業します。その後、出力に対して単純な線形分類器(線形プローブ)を訓練すれば、かなり良い性能が得られます。凍結された自己教師ありモデル上の最良の線形プローブはエンドツーエンドの学習済み分類器ほど強力ではありませんが、同じSSMでも多くの異なるタスクに対して同時に強力に対応できます。
論文は、JEPAとは異なり、同じ画像を2通り異なる方法で補強しつつ表現的な類似性を保つ不変性ベースの訓練法は、研究者バイアスによる画像増強のセットを犠牲にしてパフォーマンスを得ており、音声やテキストなど他のモダリティには移らないと指摘しています。JEPAは正確なマスキングに非常に敏感であることに気づきました(表6)。差はあまりないようです。
ターゲットエンコーダは、DQN RLネットワークにおける現代のターゲットモデルの定式化に表面的には似ており、時折コピーされる代わりに重みのEMAを用いますが、強化学習の安定性補助として(必ずしも必要というわけではありません)が、ここではモデルが表現を自明に崩壊させて予測するのを防ぐというより根本的な目的を持っています。これとLayerNormも重要な要素ですが、論文には明記されておらず、他の場所で参考文献を探しなければなりませんでした。
文脈にはランダムに0.85〜1.0のトリミングを適用しているのに、右側と下のブロックだけを除去しているのはちょっと変わっています。その作物のアブレーションを見ると思っていました。
画像解像度を上げるのは、モデルをスケールさせるには少し変わった方法です。実際には解像度が役立つのではなく、パッチ数の総数が重要だと思います。
自己監督に関する多くの研究は私がぼんやりとしか知らないため、JEPAの重要な特徴を見落としているかもしれません。私はまだ、コンテキストが正確に何を学ぶのか、そしてモデルのアーキテクチャやトレーニングがそれを崩壊からどう導くのかという核心的な問いに取り組んでいます。
トップ
ランキング
お気に入り
