Um modelo de linguagem pode aprender a estrutura de RNA sem dados explícitos de treinamento estrutural?@NatureComms @Tsinghua_Uni "ERNIE-RNA: um modelo de linguagem de RNA com representações aprimoradas por estrutura" • Modelos existentes de linguagem de RNA negligenciam informações estruturais em sequências, levando à extração incompleta de características e desempenho subótimo, apesar da organização hierárquica do RNA, onde as sequências primárias se dobram em conformações estruturais específicas que determinam funções biológicas. Abordagens computacionais tradicionais para previsão de estruturas de RNA enfrentam desafios distintos: métodos baseados em termodinâmica são limitados pela precisão dos parâmetros, métodos baseados em alinhamento têm dificuldade sem sequências homólogas suficientes, e modelos de aprendizado profundo apresentam generalização limitada para famílias de RNA não vistas. Embora modelos de linguagem de RNA no estilo BERT como RNA-FM (treinado com 23 milhões de sequências), UNI-RNA (1 bilhão de sequências, 400M parâmetros) e RiNALMo (36M sequências, 650M parâmetros) tenham surgido, eles não incorporam adequadamente informações estruturais, com alguns, como o UTR-LM, tentando resolver isso incorporando estruturas previstas a partir do RNAfold, mas enfrentando limitações devido a erros de predição e redução da capacidade de generalização. • ERNIE-RNA é um modelo de linguagem pré-treinado de RNA com 86 milhões de parâmetros baseado em arquitetura BERT modificada, com 12 blocos transformadores e 12 cabeças de atenção, treinado em 20,4 milhões de sequências de RNA não codificantes do RNAcentral após filtrar sequências maiores que 1022 nucleotídeos e aplicar remoção de redundância CD-HIT com 100% de similaridade. O modelo incorpora um mecanismo de viés de atenção informado por pareamento de base que atribui valores de 2 para pares AU, 3 para pares CG e um parâmetro ajustável α (inicialmente 0,8) para pares GU em uma matriz de posição par-à-pare, substituindo o termo de viés na primeira camada transformadora. O pré-treinamento usou modelagem de linguagem mascarada com 15% dos tokens substituídos aleatoriamente, treinado por 20 dias em 24 GPUs 32G-V100 usando fairseq com taxa base de aprendizado 0,0001, 20.000 passos de aquecimento e decaimento de peso de 0,01, gerando tanto mapas de atenção (L×L×156) quanto embeddings de tokens (12×768×L) como saídas. • Os mapas de atenção do ERNIE-RNA demonstraram capacidade de predição de estrutura secundária de RNA zero-shot com escore mediano F1 de 0,552 no conjunto de teste bpRNA-1m, superando RNAfold (0,492), RNAstructure (0,491), RNAErnie (0,440) e RNA-BERT (0,365) sem ajuste fino. Após ajustes finos, o ERNIE-RNA alcançou escores F1 macro-médios de última geração de 0,873 no bpRNA-1m, superando o RiNALMo (0,850, 650M) e o UNI-RNA (0,821, 400M parâmetros), com liderança semelhante no ArchiveII (0,954 contra 0,892 do RiNALMo) e no RIVAS TestSetB (0,721 contra 0,555 do RiNALMo). Em testes desafiadores de generalização entre famílias, o ERNIE-RNA congelado alcançou escores F1 de 0,646 em bpRNA-novo e 0,590 em RNA3DB-2D, superando métodos tradicionais de programação dinâmica como Eternafold (0,639) e mantendo superioridade sobre todos os concorrentes de deep learning. ERNIE-RNA também alcançou desempenho superior em diversas tarefas a jusante: predição do mapa de contato de RNA com precisão Top-L/1 de 0,68 (contra o conjunto do RNAcontact em 0,46), predição de MRL 5'UTR com R² de 0,92 em conjunto de teste aleatório e 0,86 em conjunto de teste humano, previsão de ligação RNA-proteína superando todos os métodos testados, precisão de classificação da família de ncRNAs de 0,9844 (0% ruído de fronteira) e 0,9820 (200% ruído de fronteira), Previsão do sítio de emenda - escores F1 variando de 0,9180 a 0,9612 em quatro espécies, precisão top-K de 55,37% no conjunto de dados SpliceAI (vs 34,84 do RNA-FM) e predição alternativa de poliadenilação R² de 78,39% (vs 70,32% do RNA-FM). Autores: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He, etc. al Xuegong Zhang, Tao Qin & Zhen Xie Link: