Poate un model de limbaj să învețe structura ARN-ului fără date explicite de antrenament structural?@NatureComms @Tsinghua_Uni "ERNIE-ARN: un model de limbaj ARN cu reprezentări îmbunătățite de structură" • Modelele existente de limbaj ARN trec cu vederea informațiile structurale din secvențe, ceea ce duce la extragerea incompletă a caracteristicilor și performanțe suboptime, în ciuda organizării ierarhice a ARN-ului, unde secvențele primare se pliază în conformații structurale specifice care determină funcțiile biologice. Abordările computaționale tradiționale pentru predicția structurii ARN-ului se confruntă cu provocări distincte: metodele bazate pe termodinamică sunt limitate de acuratețea parametrilor, metodele bazate pe aliniere se confruntă cu dificultăți fără secvențe omologe suficiente, iar modelele de învățare profundă prezintă o generalizare limitată către familii de ARN nevăzute. Deși modele de limbaj ARN în stil BERT precum RNA-FM (antrenat pe 23 de milioane de secvențe), UNI-RNA (1 miliard de secvențe, 400M parametri) și RiNALMo (36M secvențe, 650M parametri), ele nu reușesc să încorporeze adecvat informațiile structurale, unele precum UTR-LM încercând să rezolve această problemă prin integrarea structurilor prezise din RNAfold, dar confruntându-se cu limitări din cauza erorilor de predicție și a capacității reduse de generalizare. • ERNIE-RNA este un model de limbaj pre-antrenat cu ARN cu 86 de milioane de parametri, bazat pe arhitectură BERT modificată, cu 12 blocuri transformatoare și 12 capete de atenție, antrenat pe 20,4 milioane de secvențe ARN necodificante de la RNAcentral după filtrarea secvențelor mai lungi de 1022 nucleotide și aplicarea eliminării redundanței CD-HIT cu o similaritate de 100%. Modelul încorporează un mecanism de bias de atenție informat de împerechere de bază, care atribuie valori de 2 pentru perechile AU, 3 pentru perechile CG și un parametru reglabil α (inițial 0,8) pentru perechile GU într-o matrice de poziții pereche cu pereche all-counter-all, înlocuind termenul de polarizare din primul strat transformator. Pre-antrenamentul a folosit modelare a limbajului mascat cu 15% din tokenuri înlocuite aleatoriu, antrenat timp de 20 de zile pe 24 GPU-uri 32G-V100 folosind fairseq cu rata de învățare de bază 0,0001, 20.000 de pași de încălzire și 0,01 weight decay, generând atât hărți de atenție (L×L×156), cât și embeddings de tokenuri (12×768×L) ca ieșiri. • Hărțile de atenție ale ERNIE-RNA au demonstrat capacitatea de predicție a structurii secundare a ARN-ului zero-shot, cu un scor median F1 de 0,552 pe setul de testare bpRNA-1m, depășind RNAfold-ul (0,492), structura ARN-ului (0,491), RNAErnie (0,440) și ARN-BERT (0,365) fără reglare fină. După reglaje fine, ERNIE-RNA a atins scoruri macro-medii F1 de ultimă generație de 0,873 pe bpRNA-1m, depășind RiNALMo (0,850, parametri 650M) și UNI-RNA (0,821, parametri 400M), cu un leadership similar pe ArchiveII (0,954 față de 0,892 la RiNALMo) și RIVAS TestSetB (0,721 față de 0,555 la RiNALMo). În testele provocatoare de generalizare cross-family, ERNIE-RNA congelat a obținut scoruri F1 de 0,646 pe bpRNA-new și 0,590 pe RNA3DB-2D, depășind metodele tradiționale de programare dinamică precum Eternafold (0,639) și menținând superioritatea față de toți concurenții în învățare profundă. ERNIE-ARN a obținut, de asemenea, performanțe superioare în diverse sarcini ulterioare: predicția hărții de contact ARN-ul cu precizie Top-L/1 de 0,68 (comparativ cu ansamblul RNAcontact de 0,46), predicția MRL 5'UTR cu R² de 0,92 pe setul de testare aleatorie și 0,86 pe setul de testare umană, predicția legării ARN-proteine care a depășit toate metodele testate, acuratețe de clasificare a familiei ncRNA de 0,9844 (0% zgomot de frontieră) și 0,9820 (zgomot de frontieră de 200%), Scoruri F1 pentru predicția locului de splicare variind între 0,9180 și 0,9612 la patru specii, acuratețe top-K de 55,37% pe setul de date SpliceAI (față de 34,84% la RNA-FM) și predicție alternativă a poliadenilării R² de 78,39% (față de 70,32% la RNA-FM). Autori: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He etc. al Xuegong Zhang, Tao Qin & Zhen Xie Legătură: