Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kan en språkmodell lära sig RNA-struktur utan explicit strukturell träningsdata?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: en RNA-språkmodell med strukturförstärkta representationer"
• Befintliga RNA-språkmodeller förbiser strukturell information i sekvenser, vilket leder till ofullständig funktionsextraktion och suboptimal prestanda, trots RNA:s hierarkiska organisation där primära sekvenser viks in i specifika strukturella konformationer som bestämmer biologiska funktioner. Traditionella beräkningsmetoder för RNA-strukturprediktion står inför särskilda utmaningar: termodynamikbaserade metoder begränsas av parameternoggrannhet, justeringsbaserade metoder har svårt utan tillräckligt homologa sekvenser, och djupinlärningsmodeller visar begränsad generalisering till osedda RNA-familjer. Även om BERT-liknande RNA-språkmodeller som RNA-FM (tränad på 23 miljoner sekvenser), UNI-RNA (1 miljard sekvenser, 400M parametrar) och RiNALMo (36M sekvenser, 650M parametrar) har dykt upp, misslyckas de med att tillräckligt integrera strukturell information, och vissa som UTR-LM försöker åtgärda detta genom att införliva förutsagda strukturer från RNAfold men möter begränsningar på grund av förutsägelsefel och minskad generaliseringsförmåga.
• ERNIE-RNA är en 86 miljoner parametrar RNA-förtränad språkmodell baserad på modifierad BERT-arkitektur med 12 transformatorblock och 12 uppmärksamhetshuvuden, tränad på 20,4 miljoner icke-kodande RNA-sekvenser från RNAcentral efter filtrering av sekvenser längre än 1022 nukleotider och tillämpning av CD-HIT-redundansborttagning vid 100 % likhet. Modellen innehåller en basparningsbaserad uppmärksamhetsbias-mekanism som tilldelar värdena 2 för AU-par, 3 för CG-par och en justerbar parameter α (initialt 0,8) för GU-par i en all-mot-alla-parvis positionsmatris, som ersätter biastermen i det första transformatorlagret. Förträningen använde maskerad språkmodellering där 15 % av tokens slumpmässigt byttes ut, tränades i 20 dagar på 24 32G-V100 GPU:er med fairseq och basinlärningshastighet 0,0001, 20 000 uppvärmningssteg och 0,01 viktminskning, vilket genererade både attention maps (L×L×156) och token embeddings (12×768×L) som utdata.
• ERNIE-RNA:s attention maps visade zero-shot RNA:s sekundärstrukturprediktion med en median F1-score på 0,552 på bpRNA-1m-testset, vilket överträffade RNAfold (0,492), RNAstruktur (0,491), RNAErnie (0,440) och RNA-BERT (0,365) utan finjustering. Efter finjustering uppnådde ERNIE-RNA toppmoderna makrogenomsnittliga F1-poäng på 0,873 på bpRNA-1m, vilket överträffade RiNALMo (0,850, 650M parametrar) och UNI-RNA (0,821, 400M parametrar), med liknande ledarskap på ArchiveII (0,954 mot RiNALMos 0,892) och RIVAS TestSetB (0,721 mot RiNALMos 0,555). På utmanande cross-family generalization-tester uppnådde ERNIE-RNA fryst F1-poäng på 0,646 på bpRNA-new och 0,590 på RNA3DB-2D, vilket överträffade traditionella dynamiska programmeringsmetoder som Eternafold (0,639) och behöll överlägsenhet gentemot alla konkurrenter inom djupinlärning. ERNIE-RNA uppnådde också överlägsen prestanda inom olika nedströmsuppgifter: RNA-kontaktkartprediktion med Top-L/1-precision på 0,68 (jämfört med RNAcontacts ensemble på 0,46), 5'UTR MRL-prediktion med R² på 0,92 på slumpmässiga testset och 0,86 på mänskliga tester, RNA-proteinbindningsprediktion som överträffade alla testade metoder, ncRNA-familjens klassificeringsnoggrannheter på 0,9844 (0 % gränsbrus) och 0,9820 (200 % gränsbrus), Splice Site prediction F1-poäng från 0,9180 till 0,9612 över fyra arter, topp-K noggrannhet på 55,37 % på SpliceAI-dataset (jämfört med RNA-FM:s 34,84 %) och alternativ polyadenyleringsprediktion R² på 78,39 % (jämfört med RNA-FM:s 70,32 %).
Författare: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He med flera. al Xuegong Zhang, Tao Qin & Zhen Xie
Länk:

Topp
Rankning
Favoriter

