Mô hình ngôn ngữ có thể học cấu trúc RNA mà không cần dữ liệu huấn luyện cấu trúc rõ ràng không?@NatureComms @Tsinghua_Uni "ERNIE-RNA: một mô hình ngôn ngữ RNA với các đại diện được tăng cường cấu trúc" • Các mô hình ngôn ngữ RNA hiện có thường bỏ qua thông tin cấu trúc trong các chuỗi, dẫn đến việc trích xuất đặc điểm không đầy đủ và hiệu suất không tối ưu, mặc dù RNA có tổ chức phân cấp nơi các chuỗi chính gập lại thành các hình dạng cấu trúc cụ thể xác định chức năng sinh học. Các phương pháp tính toán truyền thống cho dự đoán cấu trúc RNA gặp phải những thách thức riêng: các phương pháp dựa trên nhiệt động học bị hạn chế bởi độ chính xác của tham số, các phương pháp dựa trên căn chỉnh gặp khó khăn khi không có đủ chuỗi đồng hình, và các mô hình học sâu cho thấy khả năng tổng quát hạn chế đối với các gia đình RNA chưa thấy. Trong khi các mô hình ngôn ngữ RNA kiểu BERT như RNA-FM (được huấn luyện trên 23 triệu chuỗi), UNI-RNA (1 tỷ chuỗi, 400 triệu tham số), và RiNALMo (36 triệu chuỗi, 650 triệu tham số) đã xuất hiện, chúng không thể tích hợp thông tin cấu trúc một cách đầy đủ, với một số như UTR-LM cố gắng giải quyết điều này bằng cách tích hợp các cấu trúc dự đoán từ RNAfold nhưng gặp phải những hạn chế từ lỗi dự đoán và khả năng tổng quát giảm. • ERNIE-RNA là một mô hình ngôn ngữ RNA được tiền huấn luyện với 86 triệu tham số dựa trên kiến trúc BERT đã được sửa đổi với 12 khối transformer và 12 đầu chú ý, được huấn luyện trên 20,4 triệu chuỗi RNA không mã hóa từ RNAcentral sau khi lọc các chuỗi dài hơn 1022 nucleotide và áp dụng loại bỏ độ trùng lặp CD-HIT ở mức độ tương đồng 100%. Mô hình này tích hợp một cơ chế thiên lệch chú ý thông tin về cặp cơ sở, gán giá trị 2 cho các cặp AU, 3 cho các cặp CG, và một tham số có thể điều chỉnh α (ban đầu là 0.8) cho các cặp GU trong ma trận vị trí cặp đôi tất cả với tất cả, thay thế thuật ngữ thiên lệch trong lớp transformer đầu tiên. Tiền huấn luyện sử dụng mô hình ngôn ngữ bị che giấu với 15% các token được thay thế ngẫu nhiên, được huấn luyện trong 20 ngày trên 24 GPU 32G-V100 sử dụng fairseq với tốc độ học cơ bản 0.0001, 20.000 bước khởi động, và 0.01 giảm trọng số, tạo ra cả bản đồ chú ý (L×L×156) và nhúng token (12×768×L) như là đầu ra. • Các bản đồ chú ý của ERNIE-RNA đã chứng minh khả năng dự đoán cấu trúc thứ cấp RNA không cần tinh chỉnh với điểm F1 trung vị là 0.552 trên tập kiểm tra bpRNA-1m, vượt trội hơn RNAfold (0.492), RNAstructure (0.491), RNAErnie (0.440), và RNA-BERT (0.365) mà không cần tinh chỉnh. Sau khi tinh chỉnh, ERNIE-RNA đạt được điểm F1 trung bình macro hiện đại là 0.873 trên bpRNA-1m, vượt qua RiNALMo (0.850, 650 triệu tham số) và UNI-RNA (0.821, 400 triệu tham số), với sự lãnh đạo tương tự trên ArchiveII (0.954 so với 0.892 của RiNALMo) và RIVAS TestSetB (0.721 so với 0.555 của RiNALMo). Trong các bài kiểm tra tổng quát giữa các gia đình khó khăn, ERNIE-RNA đã đạt được điểm F1 là 0.646 trên bpRNA-new và 0.590 trên RNA3DB-2D, vượt trội hơn các phương pháp lập trình động truyền thống như Eternafold (0.639) và duy trì sự vượt trội so với tất cả các đối thủ cạnh tranh học sâu. ERNIE-RNA cũng đạt được hiệu suất vượt trội trên nhiều nhiệm vụ hạ nguồn khác nhau: dự đoán bản đồ tiếp xúc RNA với độ chính xác Top-L/1 là 0.68 (so với 0.46 của RNAcontact), dự đoán MRL 5'UTR với R² là 0.92 trên tập kiểm tra ngẫu nhiên và 0.86 trên tập kiểm tra người, dự đoán liên kết RNA-protein vượt trội hơn tất cả các phương pháp đã thử nghiệm, độ chính xác phân loại gia đình ncRNA là 0.9844 (0% tiếng ồn biên) và 0.9820 (200% tiếng ồn biên), điểm F1 dự đoán vị trí cắt dao động từ 0.9180 đến 0.9612 trên bốn loài, độ chính xác top-K là 55.37% trên tập dữ liệu SpliceAI (so với 34.84% của RNA-FM), và dự đoán polyadenyl hóa thay thế R² là 78.39% (so với 70.32% của RNA-FM). Tác giả: Weijie Yin, Zhaoyu Zhang, Shuo Zhang, Liang He et. al Xuegong Zhang, Tao Qin & Zhen Xie Liên kết: