Google DeepMind は、ビジュアル インテリジェンスに関する重要な論文を発表しました。 「ビデオモデルはゼロショットの学習者であり推論者である」 研究は次のことを示しています。 - Veo 3は、画像+短いプロンプトだけで、トレーニングされていない多くのタスクを解決します。 - 言語のLLMに似た汎用ビジョン基盤モデルになる予定だ - it 推論は、CoT と同様に、時間を超えたフレーム連鎖 (CoF) を介して発生します。