🚨 DeepMind w końcu opublikował dokument Veo3, który pokazuje to, co wszyscy zauważamy, bawiąc się modelami generującymi wideo. Podobnie jak LLM, rozumowanie wizualne jest emergentną właściwością treningu na ogromnych ilościach wideo. Może rozwiązywać zadania, które nie były explicite w danych treningowych. "Veo 3 to moment GPT-3 dla rozumowania wizualnego"
Źródło:
359,65K