أهم ورقة بحثية لعام 2025 ليست عن التحسينات التدريجية في بنية الترانسفورمر. بل يتعلق باستبدال نموذجها التسلسلي والذاتي الانحدار بنموذج موازي ثنائي الاتجاه. ورقة LLaDA 2.0 تعيد تماما طريقة تفكيري في نماذج الانتشار. حتى الآن، كانت نماذج الانتشار الكبيرة تبدو فكرة مثيرة للاهتمام، لكنها ليست قريبة من شيء يمكن تشغيله بمقياس 100 بايت. هذه الورقة تغير ذلك. فكرتهم بسيطة جدا: خذ نموذجا ذاتيا قويا وحوله إلى نموذج انتشار، بدلا من تدريبه من الصفر. تمكن المؤلفون من معرفة ذلك دون تدمير معرفة النموذج الأصلي. يسمونها "جدول الإحماء-الاستطبال-التحلل." السبب في أهمية هذا الموضوع: لنموذج الانتشار العديد من الفوائد: فك التشفير المتوازي، أداء الاستدلال القوي، السرعة، وغيرها. أنا أضع رابطا للورقة أدناه. تابع القراءة لترى كيف يمكننا بناء الجيل القادم من النماذج.