Google DeepMind a lansat o lucrare cheie despre inteligența vizuală: "Modelele video sunt elevi și raționatori fără lovitură" Cercetarea arată: - Veo 3 rezolvă multe sarcini pentru care nu a fost antrenat, folosind doar o imagine + o scurtă solicitare - este pe cale să fie un model de bază de viziune de uz general, similar cu LLM-urile pentru limbaj - raționamentul apare printr-un lanț de cadre (CoF) de-a lungul timpului, similar cu CoT