Gemma 3 は、画像、テキスト、ビデオをすべて一度に理解します。この詳細な説明では、モデルが複数のソースを統合し、ドキュメントに関する質問への回答から視覚的なシーンの詳細な記述まで、さまざまなタスクを実行する方法を学びます。マルチモダリティが重要な理由をご覧ください。