Research Project
Grant-in-Aid for JSPS Fellows
本研究の目的は、マルチメディアデータの解析・対応づけなどを行なう実用的な統合システムの構築である。マルチメディアデータは、画像・音声・テキストからなるが、これまでは各メディアが別々に解析され、その要素技術の限界が明らかになりつつある。本研究では、これら各メディアを統合的に処理することにより、実用的なシステムの検討・構築を行なう。そのため申請者は、意味の把握が比較的容易なテキストメディアに着目し、異なるメディア間の処理結果を反映させることで、各メディア処理単体での困難な点を回避し、効率的な処理を目指す。最終年度にあたる本年度には、統合処理システムおよびこれにかかわる部分の映像処理部分の設計および実装を行った。我々はまず、映像から個々の映像区間や全体の構成に関する特徴を抽出する手法を提案・実装し、評価を行なった。ここで、様々な角度から映像構造を解析するため、2つの映像解析手法を提案した。一つは映像中の動きに着目した手法、もう一つは映像の背景部分に着目した手法である。動きに着目した映像構造解析手法では、料理映像においては画面中の手などの動きが重要であるという考えに基づき、映像の重要部分を「動き部分」「静止部分」に分類した。そして、画面全体の動きの大きさを利用してこれらの重要部分の抽出を行い、映像構造を解析した。また、背景を利用した研究では、手元が動作を行なう背景によって動作の種類が大まかに分類できることに着目し、色情報を利用して背景の識別を行なう手法を提案した。この手法においては、学習により画面中における「背景部分」を自動抽出する手法をあわせて実現した。いずれの手法も、評価実験により高精度にて実現できることが示された。そして統合処理部分として、調理順序、背景認識結果、そして音声内容の3種類の情報を統合的に利用する統合処理手法を提案し、対応付け精度に関して評価実験を行い、有効性を示した。さらに、簡単に出実現可能な応用アプリケーションの例として自動要約手法を検討し、実装・評価を行った。
All Other
All Publications (2 results)