Google DeepMind publicó un artículo clave sobre Inteligencia Visual: "Los modelos de video son aprendices y razonadores de cero disparos" La investigación muestra: - Veo 3 resuelve muchas tareas para las que no fue entrenado, utilizando solo una imagen + un breve aviso - está en camino de convertirse en un modelo de base de visión de propósito general, similar a los LLMs para el lenguaje - el razonamiento emerge a través de una cadena de marcos (CoF) a lo largo del tiempo, similar a CoT