Google DeepMind 发布了一篇关于视觉智能的关键论文: “视频模型是零样本学习者和推理者” 研究表明: - Veo 3 解决了许多未经过训练的任务,仅使用一张图像 + 一个简短的提示 - 它正朝着成为一个通用的视觉基础模型的方向发展,类似于语言的 LLMs - 它的推理通过时间上的一系列帧(CoF)出现,类似于 CoT