Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um modelo de linguagem pode aprender a estrutura do RNA sem dados de treinamento estrutural explícitos?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: um modelo de linguagem RNA com representações melhoradas por estrutura"
• Os modelos de linguagem RNA existentes ignoram informações estruturais nas sequências, levando a uma extração de características incompleta e desempenho subótimo, apesar da organização hierárquica do RNA, onde sequências primárias se dobram em conformações estruturais específicas que determinam funções biológicas. Abordagens computacionais tradicionais para previsão de estrutura de RNA enfrentam desafios distintos: métodos baseados em termodinâmica são limitados pela precisão dos parâmetros, métodos baseados em alinhamento lutam sem sequências homólogas suficientes, e modelos de aprendizado profundo mostram generalização limitada para famílias de RNA não vistas. Embora modelos de linguagem RNA estilo BERT como RNA-FM (treinado em 23 milhões de sequências), UNI-RNA (1 bilhão de sequências, 400M parâmetros) e RiNALMo (36M sequências, 650M parâmetros) tenham surgido, eles falham em incorporar adequadamente informações estruturais, com alguns como UTR-LM tentando abordar isso ao incorporar estruturas previstas do RNAfold, mas enfrentando limitações devido a erros de previsão e capacidade de generalização reduzida.
• ERNIE-RNA é um modelo de linguagem RNA pré-treinado com 86 milhões de parâmetros baseado em uma arquitetura BERT modificada com 12 blocos de transformadores e 12 cabeças de atenção, treinado em 20,4 milhões de sequências de RNA não codificante do RNAcentral após filtrar sequências mais longas que 1022 nucleotídeos e aplicar a remoção de redundância CD-HIT a 100% de similaridade. O modelo incorpora um mecanismo de viés de atenção informado por emparelhamento de bases que atribui valores de 2 para pares AU, 3 para pares CG, e um parâmetro ajustável α (inicialmente 0.8) para pares GU em uma matriz de posição par-a-par, substituindo o termo de viés na primeira camada de transformador. O pré-treinamento utilizou modelagem de linguagem mascarada com 15% dos tokens substituídos aleatoriamente, treinado por 20 dias em 24 GPUs 32G-V100 usando fairseq com taxa de aprendizado base de 0.0001, 20.000 passos de aquecimento e 0.01 de decaimento de peso, gerando tanto mapas de atenção (L×L×156) quanto embeddings de tokens (12×768×L) como saídas.
• Os mapas de atenção do ERNIE-RNA demonstraram capacidade de previsão de estrutura secundária de RNA zero-shot com uma pontuação F1 mediana de 0.552 no conjunto de teste bpRNA-1m, superando RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) e RNA-BERT (0.365) sem ajuste fino. Após o ajuste fino, o ERNIE-RNA alcançou pontuações F1 macro-média de estado da arte de 0.873 no bpRNA-1m, superando RiNALMo (0.850, 650M parâmetros) e UNI-RNA (0.821, 400M parâmetros), com liderança semelhante no ArchiveII (0.954 vs 0.892 do RiNALMo) e no RIVAS TestSetB (0.721 vs 0.555 do RiNALMo). Em testes desafiadores de generalização entre famílias, o ERNIE-RNA congelado alcançou pontuações F1 de 0.646 no bpRNA-new e 0.590 no RNA3DB-2D, superando métodos tradicionais de programação dinâmica como Eternafold (0.639) e mantendo superioridade sobre todos os concorrentes de aprendizado profundo. O ERNIE-RNA também alcançou desempenho superior em diversas tarefas subsequentes: previsão de mapa de contato de RNA com precisão Top-L/1 de 0.68 (vs 0.46 do ensemble RNAcontact), previsão de MRL de 5'UTR com R² de 0.92 no conjunto de teste aleatório e 0.86 no conjunto de teste humano, previsão de ligação RNA-proteína superando todos os métodos testados, precisões de classificação de família ncRNA de 0.9844 (0% de ruído de limite) e 0.9820 (200% de ruído de limite), pontuações F1 de previsão de sítio de splicing variando de 0.9180 a 0.9612 em quatro espécies, precisão top-K de 55.37% no conjunto de dados SpliceAI (vs 34.84% do RNA-FM), e previsão de poliadenilação alternativa com R² de 78.39% (vs 70.32% do RNA-FM).
Autores: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie
Link:

Top
Classificação
Favoritos

