Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un modèle de langage peut-il apprendre la structure de l'ARN sans données d'entraînement structurelles explicites ?@NatureComms @Tsinghua_Uni
"ERNIE-RNA : un modèle de langage ARN avec des représentations améliorées par la structure"
• Les modèles de langage ARN existants négligent les informations structurelles dans les séquences, ce qui conduit à une extraction de caractéristiques incomplète et à des performances sous-optimales, malgré l'organisation hiérarchique de l'ARN où les séquences primaires se replient en conformations structurelles spécifiques qui déterminent les fonctions biologiques. Les approches computationnelles traditionnelles pour la prédiction de la structure de l'ARN rencontrent des défis distincts : les méthodes basées sur la thermodynamique sont contraintes par l'exactitude des paramètres, les méthodes basées sur l'alignement peinent sans séquences homologues suffisantes, et les modèles d'apprentissage profond montrent une généralisation limitée aux familles d'ARN non vues. Bien que des modèles de langage ARN de type BERT comme RNA-FM (entraîné sur 23 millions de séquences), UNI-RNA (1 milliard de séquences, 400M de paramètres) et RiNALMo (36M de séquences, 650M de paramètres) aient émergé, ils échouent à incorporer adéquatement les informations structurelles, certains comme UTR-LM tentant de remédier à cela en intégrant des structures prédites de RNAfold mais faisant face à des limitations dues aux erreurs de prédiction et à une capacité de généralisation réduite.
• ERNIE-RNA est un modèle de langage ARN pré-entraîné de 86 millions de paramètres basé sur une architecture BERT modifiée avec 12 blocs de transformateurs et 12 têtes d'attention, entraîné sur 20,4 millions de séquences d'ARN non codantes provenant de RNAcentral après filtrage des séquences de plus de 1022 nucléotides et application d'une suppression de redondance CD-HIT à 100 % de similarité. Le modèle intègre un mécanisme de biais d'attention informé par les paires de bases qui attribue des valeurs de 2 pour les paires AU, 3 pour les paires CG, et un paramètre ajustable α (initialement 0,8) pour les paires GU dans une matrice de position pair-à-pair, remplaçant le terme de biais dans la première couche de transformateur. L'entraînement préliminaire a utilisé un modèle de langage masqué avec 15 % des tokens remplacés aléatoirement, entraîné pendant 20 jours sur 24 GPU 32G-V100 utilisant fairseq avec un taux d'apprentissage de base de 0,0001, 20 000 étapes de réchauffement et une décroissance de poids de 0,01, générant à la fois des cartes d'attention (L×L×156) et des embeddings de tokens (12×768×L) en sortie.
• Les cartes d'attention d'ERNIE-RNA ont démontré une capacité de prédiction de la structure secondaire de l'ARN en zéro-shot avec un score F1 médian de 0,552 sur le jeu de test bpRNA-1m, surpassant RNAfold (0,492), RNAstructure (0,491), RNAErnie (0,440) et RNA-BERT (0,365) sans ajustement. Après ajustement, ERNIE-RNA a atteint des scores F1 macro-moyens à la pointe de 0,873 sur bpRNA-1m, surpassant RiNALMo (0,850, 650M de paramètres) et UNI-RNA (0,821, 400M de paramètres), avec un leadership similaire sur ArchiveII (0,954 contre 0,892 de RiNALMo) et RIVAS TestSetB (0,721 contre 0,555 de RiNALMo). Lors de tests de généralisation inter-familles difficiles, ERNIE-RNA gelé a atteint des scores F1 de 0,646 sur bpRNA-new et 0,590 sur RNA3DB-2D, surpassant les méthodes traditionnelles de programmation dynamique comme Eternafold (0,639) et maintenant sa supériorité sur tous les concurrents d'apprentissage profond. ERNIE-RNA a également obtenu des performances supérieures dans diverses tâches en aval : prédiction de carte de contact ARN avec une précision Top-L/1 de 0,68 (contre l'ensemble de RNAcontact à 0,46), prédiction MRL 5'UTR avec R² de 0,92 sur un jeu de test aléatoire et 0,86 sur un jeu de test humain, prédiction de liaison ARN-protéine surpassant toutes les méthodes testées, précisions de classification de famille ncRNA de 0,9844 (0 % de bruit de frontière) et 0,9820 (200 % de bruit de frontière), scores F1 de prédiction de site d'épissage variant de 0,9180 à 0,9612 à travers quatre espèces, précision top-K de 55,37 % sur le jeu de données SpliceAI (contre 34,84 % de RNA-FM), et prédiction de polyadénylation alternative R² de 78,39 % (contre 70,32 % de RNA-FM).
Auteurs : Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et al. Xuegong Zhang, Tao Qin & Zhen Xie
Lien :

Meilleurs
Classement
Favoris

