Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy model językowy może nauczyć się struktury RNA bez wyraźnych danych treningowych dotyczących struktury?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: model językowy RNA z wzmocnionymi reprezentacjami strukturalnymi"
• Istniejące modele językowe RNA pomijają informacje strukturalne w sekwencjach, co prowadzi do niekompletnego wydobywania cech i suboptymalnej wydajności, mimo hierarchicznej organizacji RNA, w której pierwotne sekwencje składają się w określone konformacje strukturalne, które determinują funkcje biologiczne. Tradycyjne podejścia obliczeniowe do przewidywania struktury RNA napotykają na wyraźne wyzwania: metody oparte na termodynamice są ograniczone przez dokładność parametrów, metody oparte na dopasowaniu mają trudności bez wystarczającej liczby homologicznych sekwencji, a modele głębokiego uczenia wykazują ograniczoną generalizację do nieznanych rodzin RNA. Podczas gdy modele językowe RNA w stylu BERT, takie jak RNA-FM (wytrenowane na 23 milionach sekwencji), UNI-RNA (1 miliard sekwencji, 400M parametrów) i RiNALMo (36M sekwencji, 650M parametrów) pojawiły się, nie są w stanie odpowiednio uwzględnić informacji strukturalnych, a niektóre, takie jak UTR-LM, próbują to zrobić, włączając przewidywane struktury z RNAfold, ale napotykają ograniczenia wynikające z błędów przewidywania i zmniejszonej zdolności do generalizacji.
• ERNIE-RNA to model językowy RNA z 86 milionami parametrów, wstępnie wytrenowany na podstawie zmodyfikowanej architektury BERT z 12 blokami transformatorowymi i 12 głowami uwagi, wytrenowany na 20,4 milionach sekwencji RNA niekodującego z RNAcentral po przefiltrowaniu sekwencji dłuższych niż 1022 nukleotydy i zastosowaniu usuwania redundancji CD-HIT przy 100% podobieństwa. Model wprowadza mechanizm uwagi oparty na parowaniu zasad, który przypisuje wartości 2 dla par AU, 3 dla par CG oraz regulowany parametr α (początkowo 0.8) dla par GU w macierzy pozycji par przeciwko sobie, zastępując termin bias w pierwszej warstwie transformatora. Wstępne szkolenie wykorzystało modelowanie językowe z maskowaniem, w którym 15% tokenów zostało losowo zastąpionych, trenowane przez 20 dni na 24 32G-V100 GPU przy użyciu fairseq z podstawową stopą uczenia 0.0001, 20 000 kroków rozgrzewających i 0.01 spadkiem wagi, generując zarówno mapy uwagi (L×L×156), jak i osadzenia tokenów (12×768×L) jako wyjścia.
• Mapy uwagi ERNIE-RNA wykazały zdolność przewidywania drugorzędowej struktury RNA w trybie zero-shot z medianą F1-score wynoszącą 0.552 na zbiorze testowym bpRNA-1m, przewyższając RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) i RNA-BERT (0.365) bez dostrajania. Po dostrojeniu, ERNIE-RNA osiągnął stan na najwyższym poziomie makro-średnich F1-score wynoszących 0.873 na bpRNA-1m, przewyższając RiNALMo (0.850, 650M parametrów) i UNI-RNA (0.821, 400M parametrów), z podobnym przywództwem na ArchiveII (0.954 w porównaniu do 0.892 RiNALMo) i RIVAS TestSetB (0.721 w porównaniu do 0.555 RiNALMo). W trudnych testach generalizacji między rodzinami, ERNIE-RNA w trybie zamrożonym osiągnął F1-score wynoszące 0.646 na bpRNA-new i 0.590 na RNA3DB-2D, przewyższając tradycyjne metody programowania dynamicznego, takie jak Eternafold (0.639) i utrzymując przewagę nad wszystkimi konkurentami w głębokim uczeniu. ERNIE-RNA osiągnął również lepszą wydajność w różnych zadaniach downstream: przewidywanie map kontaktów RNA z precyzją Top-L/1 wynoszącą 0.68 (w porównaniu do zespołu RNAcontact na poziomie 0.46), przewidywanie MRL 5'UTR z R² wynoszącym 0.92 na losowym zbiorze testowym i 0.86 na zbiorze testowym dla ludzi, przewidywanie wiązania RNA-białko przewyższające wszystkie testowane metody, dokładności klasyfikacji rodzin ncRNA wynoszące 0.9844 (0% hałasu na granicy) i 0.9820 (200% hałasu na granicy), F1-score przewidywania miejsc splicingu w zakresie od 0.9180 do 0.9612 w czterech gatunkach, dokładność top-K wynosząca 55.37% na zbiorze danych SpliceAI (w porównaniu do 34.84% RNA-FM) oraz przewidywanie alternatywnej poliadenylacji z R² wynoszącym 78.39% (w porównaniu do 70.32% RNA-FM).
Autorzy: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He i in. Xuegong Zhang, Tao Qin i Zhen Xie
Link:

Najlepsze
Ranking
Ulubione

