Google DeepMind ga ut et nøkkeldokument om visuell intelligens: "Videomodeller er nullskuddselever og resonnere" Forskningen viser: - Veo 3 løser mange oppgaver den ikke var trent for, ved å bruke bare et bilde + en kort melding - det er på vei til å bli en generell visjonsgrunnmodell, lik LLM-er for språk - det resonnementet dukker opp via en kjede av rammer (CoF) over tid, på samme måte som CoT