Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voiko kielimalli oppia RNA:n rakenteen ilman eksplisiittistä rakenteellista koulutusdataa?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: RNA-kielimalli, jossa on rakennetta parannetut esitykset"
• Olemassa olevat RNA-kielimallit jättävät rakenteellisen tiedon huomiotta sekvensseissä, mikä johtaa epätäydelliseen ominaisuuksien poimimiseen ja heikkoon suorituskykyyn, vaikka RNA:n hierarkkinen järjestys on, jossa primaarisekvenssit taittuvat tiettyihin rakenteellisiin konformaatioihin, jotka määrittävät biologiset toiminnot. Perinteiset laskennalliset lähestymistavat RNA-rakenteen ennustamiseen kohtaavat selkeitä haasteita: termodynamiikkaan perustuvat menetelmät ovat parametrien tarkkuuden rajoittamia, kohdistukseen perustuvat menetelmät kamppailevat ilman riittäviä homologisia sekvenssejä ja syväoppimismallit yleistävät rajoittuneesti näkymättömiin RNA-perheisiin. Vaikka BERT-tyyliset RNA-kielimallit, kuten RNA-FM (koulutettu 23 miljoonalla sekvenssillä), UNI-RNA (1 miljardi sekvenssi, 400M parametria) ja RiNALMo (36M sekvenssi, 650M parametria) ovat syntyneet, ne eivät pysty riittävästi sisällyttämään rakenteellista tietoa, ja jotkut, kuten UTR-LM, pyrkivät ratkaisemaan tämän ottamalla mukaan ennustettuja rakenteita RNAfoldista, mutta kohtaavat rajoituksia ennustevirheiden ja heikentyneen yleistyksen vuoksi.
• ERNIE-RNA on 86 miljoonan parametrin RNA-esikoulutettu kielimalli, joka perustuu muokattuun BERT-arkkitehtuuriin, jossa on 12 muuntajalohkoa ja 12 huomion päätettä, ja joka on koulutettu 20,4 miljoonaan ei-koodaavaan RNA-sekvenssiin RNAcentralista suodattamalla sekvenssejä, jotka ovat pidempiä kuin 1022 nukleotidia ja soveltaen CD-HIT-redundanssin poistoa 100 % samankaltaisuudella. Mallissa on perusparien pohjalta ohjattu tarkkaavaisuusharhamekanismi, joka antaa arvot 2 AU-pareille, 3 CG-pareille ja säädettävä parametri α (aluksi 0,8) GU-pareille all-vastaan-all -parin sijaintimatriisissa, korvaten bias-termin ensimmäisessä muuntajakerroksessa. Esikoulutus käytti maskattua kielimallinnusta, jossa 15 % tokeneista vaihdettiin satunnaisesti, ja koulutettiin 20 päivää 24 32G-V100 GPU:lla käyttäen fairseq'ta perusoppimisnopeudella 0,0001, 20 000 lämmittelyaskelta ja 0,01 painon heikkenemistä, tuottaen sekä huomiokarttoja (L×L×156) että token-upotuksia (12×768×L) ulostuloina.
• ERNIE-RNA:n tarkkaavaisuuskartat osoittivat nollashotin RNA:n sekundaarirakenteen ennustamiskyvyn mediaanipisteellä 0,552 bpRNA-1m-testisarjassa, mikä päihitti RNAfoldin (0,492), RNA-rakenteen (0,491), RNAErnien (0,440) ja RNA-BERTin (0,365) ilman hienosäätöä. Hienosäädön jälkeen ERNIE-RNA saavutti huippumodernit makrokeskiarvoiset F1-pisteet 0,873 bpRNA-1m:llä, ohittaen RiNALMon (0,850, 650M parametrit) ja UNI-RNA:n (0,821, 400M parametrit), vastaavalla johtajuudella ArchiveII:ssa (0,954 vs RiNALMo:n 0,892) ja RIVAS TestSetB:ssä (0,721 vs RiNALMo:n 0,555). Haastavien perheiden välisissä yleistystesteissä ERNIE-RNA saavutti F1-pisteet 0,646 bpRNA-new:ssa ja 0,590 RNA3DB-2D:ssä, päihittäen perinteiset dynaamisen ohjelmoinnin menetelmät kuten Eternafold (0,639) ja säilyttäen ylivoimansa kaikkiin syväoppimiskilpailijoihin nähden. ERNIE-RNA saavutti myös erinomaisen suorituskyvyn erilaisissa jälkivaiheen tehtävissä: RNA-kontaktikartan ennustaminen Top-L/1-tarkkuudella 0,68 (verrattuna RNAcontactin kokonaisuuteen 0,46), 5'UTR MRL-ennuste R²:llä 0,92 satunnaistestisarjalla ja 0,86 ihmisen testisarjalla, RNA-proteiinien sitoutumisen ennustaminen ylitti kaikki testatut menetelmät, ncRNA-perheen luokittelutarkkuus 0,9844 (0 % rajakohina) ja 0,9820 (200 % rajakohina), splice-paikan ennusteen F1-pisteet vaihtelevat 0,9180–0,9612 neljän lajin välillä, huippu-K-tarkkuus 55,37 % SpliceAI-aineistossa (verrattuna RNA-FM:iin 34,84 %) ja vaihtoehtoisen polyadenyloinnin ennusteen R² 78,39 % (vs RNA-FM:n 70,32 %).
Kirjoittajat: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He ym. al Xuegong Zhang, Tao Qin ja Zhen Xie
Linkki:

Johtavat
Rankkaus
Suosikit

