Google DeepMind a publié un article clé sur l'intelligence visuelle : "Les modèles vidéo sont des apprenants et des raisonneurs à zéro coup". La recherche montre : - Veo 3 résout de nombreuses tâches pour lesquelles il n'a pas été entraîné, en utilisant uniquement une image + un court prompt - il est en bonne voie pour devenir un modèle de fondation de vision à usage général, similaire aux LLM pour le langage - son raisonnement émerge via une chaîne de cadres (CoF) à travers le temps, similaire à CoT.