O Google DeepMind lançou um artigo chave sobre Inteligência Visual: "Modelos de vídeo são aprendizes e raciocinadores zero-shot" A pesquisa mostra: - O Veo 3 resolve muitas tarefas para as quais não foi treinado, usando apenas uma imagem + um breve prompt - está a caminho de se tornar um modelo de fundação de visão de propósito geral, semelhante aos LLMs para linguagem - o raciocínio emerge através de uma cadeia de quadros (CoF) ao longo do tempo, semelhante ao CoT