Yann LeCun presenta VL-JEPA: una alternativa de alta eficiencia y no generativa a los LLM multimodales que supera a los modelos tradicionales tanto en velocidad como en precisión. * No generativo y en tiempo real: El primer modelo de su tipo construido sobre una arquitectura predictiva de embebido conjunto, que permite tareas de lenguaje visual en dominio general en tiempo real. * Rendimiento superior: Al predecir tokens en espacio latente en lugar de en espacio de datos, supera consistentemente a los VLM generativos en experimentos controlados. * Eficiencia en streaming: Su diseño no autorregresivo permite la decodificación selectiva, ofreciendo enormes ganancias de eficiencia para aplicaciones de vídeo online. * Arquitectura unificada: Un único modelo que domina simultáneamente tareas de clasificación, recuperación y VQA.