Může jazykový model naučit se strukturu RNA bez explicitních strukturálních tréninkových dat?@NatureComms @Tsinghua_Uni "ERNIE-RNA: jazykový model RNA s reprezentacemi vylepšenými strukturou" • Stávající RNA jazykové modely přehlížejí strukturální informace v sekvencích, což vede k neúplné extrakci rysů a suboptimálnímu výkonu, navzdory hierarchické organizaci RNA, kde primární sekvence přecházejí do specifických strukturálních konformací, které určují biologické funkce. Tradiční výpočetní přístupy k predikci struktury RNA čelí specifickým výzvám: metody založené na termodynamice jsou omezeny přesností parametrů, metody založené na zarovnání mají potíže bez dostatečných homologních sekvencí a modely hlubokého učení vykazují omezenou generalizaci na neviditelné rodiny RNA. Ačkoliv se objevily RNA jazykové modely ve stylu BERT jako RNA-FM (trénovaná na 23 milionech sekvencí), UNI-RNA (1 miliarda sekvencí, 400M parametrů) a RiNALMo (36M sekvencí, 650M parametrů), nedokážou dostatečně zahrnout strukturální informace, přičemž některé, jako UTR-LM, se snaží tento problém řešit začleněním předpovězených struktur z RNAfold, ale čelí omezením kvůli chybám v predikci a snížené schopnosti generalizace. • ERNIE-RNA je předtrénovaný jazykový model RNA s 86 miliony parametrů založený na modifikované architektuře BERT s 12 transformátorovými bloky a 12 hlavami pozornosti, trénovaný na 20,4 milionu nekódujících RNA sekvencí z RNAcentral po filtraci sekvencí delších než 1022 nukleotidů a aplikaci odstranění redundance CD-HIT při 100% podobnosti. Model zahrnuje mechanismus pozornosti informovaný o párování bází, který přiřazuje hodnoty 2 pro páry AU, 3 pro páry CG a laditelný parametrový α (původně 0,8) pro páry GU v matici poloh vše proti všemu, čímž nahrazuje člen předpojatosti v první vrstvě transformátoru. Předtrénování používalo modelování maskovaného jazyka s 15 % tokenů náhodně nahrazených, trénováno 20 dní na 24 GPU 32G-V100 pomocí fairseq s základní rychlostí učení 0,0001, 20 000 zahřívacími kroky a 0,01 váhovým poklesem, generující jak mapy pozornosti (L×L×156) a tokenové embeddingy (12×768×L) jako výstupy. • Pozorovací mapy ERNIE-RNA prokázaly schopnost predikce sekundární struktury RNA s nulovým skóre F1 0,552 na testovací sadě bpRNA-1m, překonávající RNAfold (0,492), RNAstrukturu (0,491), RNAErnie (0,440) a RNA-BERT (0,365) bez jemného ladění. Po doladěním ERNIE-RNA dosáhla špičkových makroprůměrných F1 skóre 0,873 na bpRNA-1m, čímž překonala RiNALMo (0,850, 650M parametrů) a UNI-RNA (0,821, 400 m parametrů), s podobným vedením na ArchiveII (0,954 vs. RiNALMo 0,892) a RIVAS TestSetB (0,721 vs. 0,555 RiNALMo). V náročných testech generalizace napříč rodinami dosáhla ERNIE-RNA frozen F1-skóre 0,646 na bpRNA-new a 0,590 na RNA3DB-2D, čímž překonala tradiční metody dynamického programování jako Eternafold (0,639) a udržela si převahu nad všemi konkurenty hlubokého učení. ERNIE-RNA také dosáhla lepšího výkonu v různých downstream úlohách: predikce kontaktní mapy RNA s přesností Top-L/1 0,68 (oproti souboru RNAcontact 0,46), 5'UTR MRL predikce s R² 0,92 na náhodné testovací sadě a 0,86 na lidské testovací sadě, predikce vazby RNA-proteinu překonávající všechny testované metody, přesnosti klasifikace rodiny ncRNA 0,9844 (0% hraniční šum) a 0,9820 (200% hraniční šum), F1 skóre predikce lokality splice v rozmezí od 0,9180 do 0,9612 napříč čtyřmi druhy, top-K přesnost 55,37 % na datové sadě SpliceAI (oproti 34,84 % RNA-FM) a alternativní predikce polyadenylace R² 78,39 % (oproti 70,32 % RNA-FM). Autoři: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He a další. al Xuegong Zhang, Tao Qin a Zhen Xie Propojit: