Yann LeCun 介紹了 VL-JEPA:一種高效的非生成性替代方案,超越了傳統的多模態 LLM,在速度和準確性上均表現優異。 * 非生成性與即時性:這是首個基於聯合嵌入預測架構的模型,能夠實時處理一般領域的視覺-語言任務。 * 優越性能:通過在潛在空間中進行預測,而非數據空間的標記,它在控制實驗中始終超越生成性 VLM。 * 流媒體效率:其非自回歸設計允許選擇性解碼,為在線視頻應用提供了巨大的效率提升。 * 統一架構:一個模型同時掌握分類、檢索和 VQA 任務。