Google DeepMind 發布了一篇關於視覺智能的關鍵論文: 「視頻模型是零樣本學習者和推理者」 研究顯示: - Veo 3 解決了許多它未經訓練的任務,只需一張圖片 + 一個簡短的提示 - 它正朝著成為通用視覺基礎模型的方向發展,類似於語言的 LLMs - 它的推理是通過時間上的幀鏈(CoF)出現的,類似於 CoT