Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Puede un modelo de lenguaje aprender la estructura del ARN sin datos de entrenamiento estructurales explícitos?@NatureComms @Tsinghua_Uni
"ERNIE-RNA: un modelo de lenguaje de ARN con representaciones mejoradas por la estructura"
• Los modelos de lenguaje de ARN existentes pasan por alto la información estructural en las secuencias, lo que lleva a una extracción de características incompleta y un rendimiento subóptimo, a pesar de la organización jerárquica del ARN donde las secuencias primarias se pliegan en conformaciones estructurales específicas que determinan funciones biológicas. Los enfoques computacionales tradicionales para la predicción de estructuras de ARN enfrentan desafíos distintos: los métodos basados en termodinámica están limitados por la precisión de los parámetros, los métodos basados en alineamientos luchan sin suficientes secuencias homólogas, y los modelos de aprendizaje profundo muestran una generalización limitada a familias de ARN no vistas. Si bien han surgido modelos de lenguaje de ARN al estilo BERT como RNA-FM (entrenado en 23 millones de secuencias), UNI-RNA (1 mil millones de secuencias, 400M parámetros) y RiNALMo (36M secuencias, 650M parámetros), no logran incorporar adecuadamente la información estructural, con algunos como UTR-LM intentando abordar esto al incorporar estructuras predichas de RNAfold, pero enfrentando limitaciones debido a errores de predicción y una capacidad de generalización reducida.
• ERNIE-RNA es un modelo de lenguaje de ARN preentrenado de 86 millones de parámetros basado en una arquitectura BERT modificada con 12 bloques de transformadores y 12 cabezales de atención, entrenado en 20.4 millones de secuencias de ARN no codificante de RNAcentral después de filtrar secuencias más largas de 1022 nucleótidos y aplicar eliminación de redundancia CD-HIT con 100% de similitud. El modelo incorpora un mecanismo de sesgo de atención informado por emparejamiento de bases que asigna valores de 2 para pares AU, 3 para pares CG, y un parámetro ajustable α (inicialmente 0.8) para pares GU en una matriz de posición par a par, reemplazando el término de sesgo en la primera capa de transformador. El preentrenamiento utilizó modelado de lenguaje enmascarado con el 15% de los tokens reemplazados aleatoriamente, entrenado durante 20 días en 24 GPUs 32G-V100 usando fairseq con una tasa de aprendizaje base de 0.0001, 20,000 pasos de calentamiento y 0.01 de decaimiento de peso, generando tanto mapas de atención (L×L×156) como incrustaciones de tokens (12×768×L) como salidas.
• Los mapas de atención de ERNIE-RNA demostraron capacidad de predicción de estructura secundaria de ARN en cero disparos con una puntuación F1 mediana de 0.552 en el conjunto de prueba bpRNA-1m, superando a RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440) y RNA-BERT (0.365) sin ajuste fino. Después del ajuste fino, ERNIE-RNA logró puntuaciones F1 promedio macro de vanguardia de 0.873 en bpRNA-1m, superando a RiNALMo (0.850, 650M parámetros) y UNI-RNA (0.821, 400M parámetros), con un liderazgo similar en ArchiveII (0.954 frente a 0.892 de RiNALMo) y RIVAS TestSetB (0.721 frente a 0.555 de RiNALMo). En desafiantes pruebas de generalización entre familias, ERNIE-RNA congelado logró puntuaciones F1 de 0.646 en bpRNA-new y 0.590 en RNA3DB-2D, superando a métodos tradicionales de programación dinámica como Eternafold (0.639) y manteniendo la superioridad sobre todos los competidores de aprendizaje profundo. ERNIE-RNA también logró un rendimiento superior en diversas tareas posteriores: predicción de mapas de contacto de ARN con precisión Top-L/1 de 0.68 (frente a 0.46 del conjunto de RNAcontact), predicción de MRL de 5'UTR con R² de 0.92 en el conjunto de prueba aleatorio y 0.86 en el conjunto de prueba humano, predicción de unión ARN-proteína superando todos los métodos probados, precisiones de clasificación de familias de ncRNA de 0.9844 (0% de ruido en los límites) y 0.9820 (200% de ruido en los límites), puntuaciones F1 de predicción de sitios de empalme que varían de 0.9180 a 0.9612 en cuatro especies, precisión top-K del 55.37% en el conjunto de datos SpliceAI (frente al 34.84% de RNA-FM), y predicción de poliadenilación alternativa con R² de 78.39% (frente al 70.32% de RNA-FM).
Autores: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie
Enlace:

Parte superior
Clasificación
Favoritos

