يقدم يان لو كون VL-JEPA: بديل عالي الكفاءة وغير توليدي لنماذج اللغة الكبيرة متعددة الوسائط، يتفوق على النماذج التقليدية في السرعة والدقة. * غير توليدي وفي الوقت الحقيقي: أول نموذج من نوعه مبني على بنية تنبؤية مشتركة للتضمين، مما يتيح مهام لغات الرؤية العامة في الوقت الحقيقي. * الأداء المتفوق: من خلال التنبؤ في الفضاء الكامن بدلا من رموز مساحة البيانات، يتفوق باستمرار على VLMs التوليدي في التجارب المحكمة. * كفاءة البث: تصميمها غير الانحدار الذاتي يسمح بفك الترميز الانتقائي، مما يوفر مكاسب كفاءة هائلة لتطبيقات الفيديو عبر الإنترنت. * البنية الموحدة: نموذج واحد يتقن في الوقت نفسه مهام التصنيف والاسترجاع وضمان الجودة.