Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un modello linguistico può apprendere la struttura dell'RNA senza dati di addestramento strutturali espliciti?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: un modello linguistico RNA con rappresentazioni potenziate dalla struttura"
• I modelli linguistici RNA esistenti trascurano le informazioni strutturali nelle sequenze, portando a un'estrazione incompleta delle caratteristiche e a prestazioni subottimali, nonostante l'organizzazione gerarchica dell'RNA in cui le sequenze primarie si piegano in conformazioni strutturali specifiche che determinano le funzioni biologiche. Gli approcci computazionali tradizionali per la previsione della struttura dell'RNA affrontano sfide distinte: i metodi basati sulla termodinamica sono vincolati dall'accuratezza dei parametri, i metodi basati sull'allineamento faticano senza sequenze omologhe sufficienti e i modelli di deep learning mostrano una generalizzazione limitata a famiglie di RNA non viste. Mentre i modelli linguistici RNA in stile BERT come RNA-FM (addestrato su 23 milioni di sequenze), UNI-RNA (1 miliardo di sequenze, 400M parametri) e RiNALMo (36M sequenze, 650M parametri) sono emersi, non riescono a incorporare adeguatamente le informazioni strutturali, con alcuni come UTR-LM che tentano di affrontare questo problema incorporando strutture previste da RNAfold ma affrontando limitazioni dovute a errori di previsione e ridotta capacità di generalizzazione.
• ERNIE-RNA è un modello linguistico RNA pre-addestrato con 86 milioni di parametri basato su un'architettura BERT modificata con 12 blocchi di trasformatori e 12 teste di attenzione, addestrato su 20,4 milioni di sequenze di RNA non codificante da RNAcentral dopo aver filtrato le sequenze più lunghe di 1022 nucleotidi e applicato la rimozione della ridondanza CD-HIT al 100% di somiglianza. Il modello incorpora un meccanismo di bias di attenzione informato dal pairing di basi che assegna valori di 2 per le coppie AU, 3 per le coppie CG e un parametro regolabile α (inizialmente 0.8) per le coppie GU in una matrice di posizioni a coppie contro tutte, sostituendo il termine di bias nel primo strato del trasformatore. L'addestramento preliminare ha utilizzato il masked language modeling con il 15% dei token sostituiti casualmente, addestrato per 20 giorni su 24 GPU 32G-V100 utilizzando fairseq con un tasso di apprendimento di base di 0.0001, 20.000 passi di riscaldamento e 0.01 di decadimento del peso, generando sia mappe di attenzione (L×L×156) che embedding di token (12×768×L) come output.
• Le mappe di attenzione di ERNIE-RNA hanno dimostrato la capacità di previsione della struttura secondaria dell'RNA zero-shot con un punteggio F1 mediano di 0.552 sul set di test bpRNA-1m, superando RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) e RNA-BERT (0.365) senza fine-tuning. Dopo il fine-tuning, ERNIE-RNA ha raggiunto punteggi F1 macro-medi di stato dell'arte di 0.873 su bpRNA-1m, superando RiNALMo (0.850, 650M parametri) e UNI-RNA (0.821, 400M parametri), con una leadership simile su ArchiveII (0.954 contro 0.892 di RiNALMo) e RIVAS TestSetB (0.721 contro 0.555 di RiNALMo). Nei test di generalizzazione inter-famiglia difficili, ERNIE-RNA congelato ha raggiunto punteggi F1 di 0.646 su bpRNA-new e 0.590 su RNA3DB-2D, superando metodi tradizionali di programmazione dinamica come Eternafold (0.639) e mantenendo la superiorità su tutti i concorrenti di deep learning. ERNIE-RNA ha anche ottenuto prestazioni superiori in vari compiti downstream: previsione della mappa di contatto RNA con precisione Top-L/1 di 0.68 (contro l'ensemble di RNAcontact a 0.46), previsione MRL 5'UTR con R² di 0.92 su un set di test casuale e 0.86 su un set di test umano, previsione del legame RNA-proteina superando tutti i metodi testati, accuratezze di classificazione delle famiglie di ncRNA di 0.9844 (0% di rumore al confine) e 0.9820 (200% di rumore al confine), punteggi F1 per la previsione dei siti di splicing che variano da 0.9180 a 0.9612 su quattro specie, accuratezza top-K del 55.37% sul dataset SpliceAI (contro il 34.84% di RNA-FM) e previsione della poliadenilazione alternativa R² del 78.39% (contro il 70.32% di RNA-FM).
Autori: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie
Link:

Principali
Ranking
Preferiti

