トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
言語モデルは明示的な構造訓練データなしでRNA構造を学習できるのでしょうか@NatureComms @Tsinghua_Uni
「ERNIE-RNA:構造強化表現を持つRNA言語モデル」
• 既存のRNA言語モデルは配列内の構造情報を見落としており、その結果、RNAは一次配列が生物的機能を決定する特定の構造的構造に折りたたまれているにもかかわらず、特徴抽出が不完全で最適でないパフォーマンスを生み出しています。従来のRNA構造予測の計算手法は明確な課題に直面しています。熱力学に基づく手法はパラメータ精度に制約され、アラインメントベースの手法は十分な相同配列がなければ苦戦し、深層学習モデルは見えないRNAファミリーへの一般化が限られています。RNA-FM(2300万配列で訓練)、UNI-RNA(10億配列、4億パラメータ)、RiNALMo(3600万配列、6億500万パラメータ)などのBERTスタイルRNA言語モデルが登場しましたが、構造情報を十分に組み込めていなかったものもあり、UTR-LMのようにRNAfoldからの予測構造を取り入れて解決しようと試みるものもありますが、予測誤差や一般化能力の低下という制約に直面しています。
• ERNIE-RNAは、修正されたBERTアーキテクチャに基づく8600万パラメータのRNA事前学習言語モデルで、12のトランスフォーマーブロックと12の注意ヘッドを持ち、1022個を超える配列をフィルタリングし、CD-HIT冗長除去を100%類似度で適用した後、RNAcentralの2040万個の非コードRNA配列で訓練されています。このモデルは、全対全のペア対位置行列で調整可能なパラメータα(当初は0.8)を割り当てる塩基対対応の注意バイアス機構を組み込んでおり、AUペアには2、CGペアに対して3、GUペアに対してはパラメータ(当初は0.8)を割り当て、最初のトランス層のバイアス項を置き換えています。事前学習ではマスク言語モデリングを用い、トークンの15%をランダムに置き換え、24台の32G-V100 GPUで20日間、fairseqを用いてベース学習率0.0001で訓練し、20,000回のウォームアップステップと0.01のウェイト減衰を行い、注意マップ(L×L×156)とトークン埋め込み(12×768×L)を出力として生成しました。
• ERNIE-RNAの注意マップは、bpRNA-1mテストセットで中央値F1スコア0.552のゼロショットRNA二次構造予測能力を示し、微調整なしでRNAフォールド(0.492)、RNA構造(0.491)、RNAErnie(0.440)、RNA-BERT(0.365)を上回る成績を示しました。微調整の結果、ERNIE-RNAはbpRNA-1mで最先端のマクロ平均F1スコア0.873を達成し、RiNALMo(0.850、650Mパラメータ)やUNI-RNA(0.821、400Mパラメータ)を上回り、ArchiveII(0.954、RiNALMoの0.892)やRIVAS TestSetB(0.721、RiNALMoの0.555)でも同様のリーダーシップを発揮しました。難しいファミリー間一般化検定において、ERNIE-RNAフローズンはbpRNA-newで0.646、RNA3DB-2Dで0.590のF1スコアを獲得し、Eternafoldのような従来の動的プログラミング手法(0.639)を上回り、すべてのディープラーニング競合他社に対して優位性を維持しました。ERNIE-RNAは多様な下流タスクでも優れた性能を達成しました。Top-L/1の精度0.68(RNAcontactのアンサンブル0.46に対し)、5'UTR MRL予測(ランダムテストセットでR²0.92、ヒトテストセットで0.86)、RNA-タンパク質結合予測がすべてのテスト手法を上回る性能、ncRNAファミリー分類精度0.9844(境界ノイズ0%)および0.9820(境界ノイズ200%)、 スプライスサイト予測のF1スコアは4種で0.9180から0.9612の範囲で、SpliceAIデータセットでのトップK精度は55.37%(RNA-FMの34.84%)、代替ポリアデニル化予測R²は78.39%(RNA-FMの70.32%)です。
著者:尹偉傑、張趙玉、張朔、梁和ら。アル・シュエゴン・チャン、陶欽、ジェン・シエ
リンク:

トップ
ランキング
お気に入り

