أصدرت Google DeepMind ورقة رئيسية حول الذكاء البصري: "نماذج الفيديو هي متعلمات ومنطقات صفرية" يظهر البحث: - يحل Veo 3 العديد من المهام التي لم يتم تدريبه عليها ، باستخدام صورة فقط + مطالبة قصيرة - إنه على الطريق الصحيح ليكون نموذجا أساسيا لرؤية للأغراض العامة ، على غرار LLMs للغة - يظهر التفكير عبر سلسلة من الإطارات (CoF) عبر الزمن ، على غرار CoT