O Google DeepMind lançou um artigo importante sobre Inteligência Visual: "Os modelos de vídeo são aprendizes e raciocinadores zero" A pesquisa mostra: - O Veo 3 resolve muitas tarefas para as quais não foi treinado, usando apenas uma imagem + um pequeno prompt - está a caminho de ser um modelo de base de visão de uso geral, semelhante aos LLMs para linguagem - seu raciocínio surge por meio de uma cadeia de quadros (CoF) ao longo do tempo, semelhante ao CoT