Google DeepMind heeft een belangrijke paper over Visuele Intelligentie uitgebracht: "Videomodellen zijn zero-shot lerenden en redeneerders" Het onderzoek toont aan: - Veo 3 lost veel taken op waarvoor het niet getraind is, met alleen een afbeelding + een korte prompt - het is op weg om een algemeen vision foundation model te worden, vergelijkbaar met LLM's voor taal - het redeneren komt voort uit een keten van frames (CoF) over de tijd, vergelijkbaar met CoT