Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kan en språkmodell lære RNA-struktur uten eksplisitt strukturell treningsdata?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: en RNA-språkmodell med strukturforsterkede representasjoner"
• Eksisterende RNA-språkmodeller overser strukturell informasjon i sekvenser, noe som fører til ufullstendig trekk av funksjoner og suboptimal ytelse, til tross for RNAs hierarkiske organisering der primærsekvenser folder seg inn i spesifikke strukturelle konformasjoner som bestemmer biologiske funksjoner. Tradisjonelle beregningsmetoder for RNA-strukturprediksjon møter tydelige utfordringer: termodynamikkbaserte metoder er begrenset av parameternøyaktighet, justeringsbaserte metoder sliter uten tilstrekkelige homologe sekvenser, og dype læringsmodeller viser begrenset generalisering til usette RNA-familier. Selv om BERT-lignende RNA-språkmodeller som RNA-FM (trent på 23 millioner sekvenser), UNI-RNA (1 milliard sekvenser, 400M parametere) og RiNALMo (36M sekvenser, 650M parametere) har dukket opp, klarer de ikke tilstrekkelig å inkorporere strukturell informasjon, og noen, som UTR-LM, forsøker å løse dette ved å inkorporere predikerte strukturer fra RNAfold, men møter begrensninger på grunn av prediksjonsfeil og redusert generaliseringsevne.
• ERNIE-RNA er en 86 millioner parametere RNA forhåndstrent språkmodell basert på modifisert BERT-arkitektur med 12 transformatorblokker og 12 oppmerksomhetshoder, trent på 20,4 millioner ikke-kodende RNA-sekvenser fra RNAcentral etter filtrering av sekvenser lengre enn 1022 nukleotider og anvendelse av CD-HIT redundansfjerning med 100 % likhet. Modellen inkorporerer en basepar-informert oppmerksomhetsbias-mekanisme som tildeler verdier 2 for AU-par, 3 for CG-par, og en justerbar parameter α (opprinnelig 0,8) for GU-par i en alt-mot-alle-parvis posisjonsmatrise, som erstatter bias-termen i det første transformatorlaget. Forhåndstrening brukte maskert språkmodellering med 15 % av tokenene tilfeldig byttet ut, trent i 20 dager på 24 32G-V100 GPU-er ved bruk av fairseq med grunnleggende læringsrate 0,0001, 20 000 oppvarmingssteg og 0,01 vektavvikling, som genererte både attention maps (L×L×156) og token embeddings (12×768×L) som utganger.
• ERNIE-RNAs oppmerksomhetskart demonstrerte evne til å predikere sekundærstruktur med en gjennomsnittlig F1-score på 0,552 på bpRNA-1m-testsettet, og overgikk RNAfold (0,492), RNAstruktur (0,491), RNAErnie (0,440) og RNA-BERT (0,365) uten finjustering. Etter finjustering oppnådde ERNIE-RNA toppmoderne makrogjennomsnittlige F1-scorer på 0,873 på bpRNA-1m, og overgikk RiNALMo (0,850, 650M parametere) og UNI-RNA (0,821, 400M parametere), med tilsvarende ledelse på ArchiveII (0,954 mot RiNALMos 0,892) og RIVAS TestSetB (0,721 mot RiNALMos 0,555). På utfordrende generaliseringstester på tvers av familier oppnådde ERNIE-RNA frozen F1-scorer på 0,646 på bpRNA-new og 0,590 på RNA3DB-2D, og overgikk tradisjonelle dynamiske programmeringsmetoder som Eternafold (0,639) og opprettholdt overlegenhet over alle konkurrenter i dyp læring. ERNIE-RNA oppnådde også overlegen ytelse på tvers av ulike nedstrøms oppgaver: RNA-kontaktkartprediksjon med Top-L/1-presisjon på 0,68 (mot RNAkontakts ensemble på 0,46), 5'UTR MRL-prediksjon med R² på 0,92 på tilfeldig testsett og 0,86 på menneskelig testsett, RNA-proteinbindingsprediksjon som overgikk alle testede metoder, ncRNA-familieklassifiseringsnøyaktigheter på 0,9844 (0 % grensestøy) og 0,9820 (200 % grensestøy), Splice Site prediksjon F1-scorer fra 0,9180 til 0,9612 på tvers av fire arter, topp-K nøyaktighet på 55,37 % på SpliceAI-datasettet (mot RNA-FMs 34,84 %), og alternativ polyadenyleringsprediksjon R² på 78,39 % (mot RNA-FMs 70,32 %).
Forfattere: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et al Xuegong Zhang, Tao Qin & Zhen Xie
Lenke:

Topp
Rangering
Favoritter

