Google DeepMind випустив ключову статтю про візуальний інтелект: «Відеомоделі – це учні та мислителі з нулем» Дослідження показує: - Veo 3 вирішує багато завдань, до яких не був навчений, використовуючи лише зображення + короткий запит - це на шляху до того, щоб стати загальноцільовою базовою моделлю бачення, подібною до LLM для мови - це міркування виникає через ланцюжок кадрів (CoF) у часі, подібно до CoT