ヤン・ルカンはVL-JEPAを紹介します。これは、高速かつ精度の両面で従来のモデルを上回る、高効率で非生成的なマルチモーダルLLMの代替手段です。 * 非生成的かつリアルタイム:同種のモデルとして初めて、共同埋め込み予測アーキテクチャを基盤とし、一般領域のビジョン言語タスクをリアルタイムで可能にしました。 * 優れた性能:データ空間トークンではなく潜在空間で予測することで、制御実験において生成VLMを一貫して上回る性能を発揮します。 * ストリーミング効率:自己回帰性のない設計により選択的復号が可能となり、オンライン動画アプリケーションにおいて大幅な効率向上をもたらします。 * 統一アーキテクチャ:分類、検索、VQAタスクを同時にマスターする単一のモデル。