デミス・ハッサビスによる今後12ヶ月の展望: - 完全なマルチモーダル収束:Geminiのようなモデルはテキスト、画像、音声、映像をシームレスに取り込み出力し、推論+創造性を高めるクロスポリネーションを実現します。 - 画期的な視覚知能:Nano Banana Proのような画像モデルは非常に高精度なインフォグラフィックを作成し、ほぼ人間に近い視覚理解を示します。 - 言語+ビデオ融合:LLMと統合されたビデオモデルにより、より豊かな分析、ストーリーテリング、段階的な視覚的推論が可能になります。 - 世界モデルがGenie 3のように主流化 - エージェントが信頼できるようになります