Google DeepMind publicó un documento clave sobre Inteligencia Visual: "Los modelos de video son aprendices y razonadores de tiro cero" La investigación muestra: - Veo 3 resuelve muchas tareas para las que no fue entrenado, usando solo una imagen + un breve mensaje - está en camino de ser un modelo de base de visión de propósito general, similar a los LLM para el lenguaje - su razonamiento emerge a través de una cadena de marcos (CoF) a lo largo del tiempo, similar a CoT