Google DeepMind hat ein wichtiges Papier zur visuellen Intelligenz veröffentlicht: "Videomodelle sind Zero-Shot-Lerner und -Denker" Die Forschung zeigt: - Veo 3 löst viele Aufgaben, für die es nicht trainiert wurde, und verwendet dabei nur ein Bild + einen kurzen Prompt - es ist auf dem besten Weg, ein allgemeines Vision-Grundlagenmodell zu werden, ähnlich wie LLMs für Sprache - das Denken entsteht über eine Kette von Frames (CoF) über die Zeit, ähnlich wie CoT