المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل يمكن لنموذج اللغة تعلم بنية الحمض النووي الريبي بدون بيانات تدريب هيكلية صريحة@NatureComms @Tsinghua_Uni
"ERNIE-RNA: نموذج لغة RNA مع تمثيلات معززة بهيكل"
• نماذج لغة الحمض النووي الريبي الحالية تتجاهل المعلومات البنيوية في التسلسلات، مما يؤدي إلى استخراج غير مكتمل للميزات وأداء غير مثالي، رغم التنظيم الهرمي للحمض النووي الريبي حيث تندمج التسلسلات الأولية في تشكيلات هيكلية محددة تحدد الوظائف البيولوجية. تواجه الأساليب الحاسوبية التقليدية للتنبؤ ببنية RNA تحديات واضحة: الطرق القائمة على الديناميكا الحرارية مقيدة بدقة المعاملات، وطرق المحاذاة تعاني من نقص في تسلسلات متجانسة كافية، وتظهر نماذج التعلم العميق تعميما محدودا على عائلات RNA غير المرئية. بينما ظهرت نماذج لغوية RNA على غرار BERT مثل RNA-FM (المدربة على 23 مليون تسلسل)، UNI-RNA (مليار تسلسل، 400 مليون معلم)، وRiNALMo (36 مليون تسلسل، 650 مليون معلمة)، إلا أنها تفشل في دمج المعلومات الهيكلية بشكل كاف، حيث تحاول بعض مثل UTR-LM معالجة ذلك من خلال دمج البنى المتوقعة من RNAfold لكنها تواجه قيودا بسبب أخطاء التنبؤ وانخفاض القدرة على التعميم.
• ERNIE-RNA هو نموذج لغوي مدرب مسبقا على RNA مكون من 86 مليون معاملة، يعتمد على بنية BERT المعدلة مع 12 كتلة محول و12 رأس انتباه، مدرب على 20.4 مليون تسلسل RNA غير مشفر من RNAcentral بعد تصفية تسلسلات أطول من 1022 نيوكليوتيد وتطبيق إزالة التكرار ب CD-HIT بتشابه 100٪. يدمج النموذج آلية انحياز انتباه مستنيرة بالاقتران الأساسي، حيث تمنح قيما 2 لأزواج AU، و3 لأزواج CG، ومعلمة قابلة للتعديل α (في البداية 0.8) لأزواج GU في مصفوفة موضع أزواج تتناسب مع الجميع، لتحل محل مصطلح التحيز في طبقة المحولات الأولى. استخدمت التدريب المسبق نمذجة اللغة المقنعة مع استبدال 15٪ من الرموز عشوائيا، وتم تدريبها لمدة 20 يوما على 24 وحدة معالجة رسومات 32G-V100 باستخدام fairseq بمعدل تعلم أساسي 0.0001، و20,000 خطوة إحماء، وفقدان وزن 0.01، مما أدى إلى توليد خرائط الانتباه (L×L×156) وتضمينات الرموز (12×768×L) كمخرجات.
• أظهرت خرائط الانتباه الخاصة ب ERNIE-RNA قدرة التنبؤ الثانوي على بنية RNA بدون طلقات صفرية مع متوسط درجة F1 تبلغ 0.552 في مجموعة اختبار bpRNA-1m، متفوقا على RNAfold (0.492)، RNAstructure (0.491)، RNAErnie (0.440)، وRNA-BERT (0.365) دون ضبط دقيق. بعد الضبط الدقيق، حقق ERNIE-RNA درجات F1 متوسطة متقدمة بلغت 0.873 على bpRNA-1m، متجاوزا RiNALMo (0.850، 650M معلمات) وUNI-RNA (0.821، 400M معلمات)، مع قيادة مماثلة في ArchiveII (0.954 مقابل 0.892 ل RiNALMo) وRIVAS TestSetB (0.721 مقابل 0.555 ل RiNALMo). في اختبارات التعميم الصعبة بين العائلات، حقق ERNIE-RNA المجمد درجات F1 بلغت 0.646 على bpRNA-new و0.590 على RNA3DB-2D، متفوقا على طرق البرمجة الديناميكية التقليدية مثل Eternafold (0.639) وحافظ على تفوقه على جميع منافسي التعلم العميق. حقق ERNIE-RNA أيضا أداء متفوقا عبر مهام لاحقة متنوعة: التنبؤ بخرائط تلامس RNA بدقة Top-L/1 تبلغ 0.68 (مقابل مجموعة RNAcontact عند 0.46)، توقع MRL بمقدار 5'UTR مع R² 0.92 في مجموعة الاختبار العشوائية و0.86 في مجموعة الاختبار البشرية، توقعات ارتباط ببروتين RNA متفوقة على جميع الطرق المختبرة، دقة تصنيف عائلات ncRNA بلغت 0.9844 (ضوضاء حدودية 0٪) و0.9820 (ضوضاء حدودية 200٪)، درجات F1 لتوقع مواقع التوصيلات تتراوح بين 0.9180 إلى 0.9612 عبر أربعة أنواع، ودقة أعلى K تبلغ 55.37٪ في مجموعة بيانات SpliceAI (مقابل 34.84٪ ل RNA-FM)، وتوقعات بوليدينيليشن بديلة R² تبلغ 78.39٪ (مقابل 70.32٪ ل RNA-FM).
المؤلفون: ويجي يين، تشاويو تشانغ، شو تشانغ، ليانغ هي وآخرون. آل شيوغونغ تشانغ، تاو تشين وتشن شيه
رابط:

الأفضل
المُتصدِّرة
التطبيقات المفضلة

