2021 Fiscal Year Annual Research Report
Development of Multimodal Data Retrieval Engine Based on Human Cognitive System
Project/Area Number |
19H04172
|
Research Institution | Osaka Gakuin University |
Principal Investigator |
上原 邦昭 大阪学院大学, 経営学部, 教授 (60160206)
|
Co-Investigator(Kenkyū-buntansha) |
白浜 公章 近畿大学, 理工学部, 准教授 (30467675)
松原 崇 大阪大学, 基礎工学研究科, 准教授 (70756197)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | マルチモーダルデータ検索エンジン / 映像検索手法 / 深層学習 |
Outline of Annual Research Achievements |
本研究は,マルチモーダルデータ検索エンジンと映像検索手法の開発からなる.まずデータ駆動型のマルチモーダルデータ検索エンジンについては,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかし,このようなアプローチは性能の大部分がデータ量に依存しており,意味の曖昧性や包含関係や複合概念を扱うことができない.そこで包含関係や階層関係を持った意味空間の構築や,検索クエリや検索結果を直接関係しない周辺情報を盛り込んだモデル化に取り組んだ.前年度の成果として,人間の認知システムのモデルとして,意味の階層関係や包含関係を表現する手法が,異常検知・強化学習・データ多様体の学習といった様々な面で有益であることが示されていた.今年度は,さらにそれらの実験を大規模化することで,論文誌や国際会議への採録につながった. つぎに映像検索手法については,映像のフレーム中の領域と検索クエリ中の単語と名詞句を対応づける手法に,以下の2点の拡張を加えた.1つ目として,構文解析を行って,検索クエリから単語や句の関係を表す句構造木を抽出し,名詞句だけでなく,動詞句もフレーム中の領域と対応づけられるようにした.2つ目として,再起型ニューラルネットワークを用いて,句構造木に基づいて,単語の特徴を動的に組み合わせて句の特徴を構成し,フレーム中の領域と名詞句,動詞句を対応づけられるように拡張した.そして,世界的な映像検索コンテストTRECVID 2021に参加し,上述の手法と他の研究機関で開発された手法との性能比較を行った.さらに,フレームという画像の解析に関する知見を,マイクロスコープからの画像中の微生物の認識に適用した論文を国際ジャーナル,また領域と単語/句の対応づけを,音楽と感情の対応づけに応用した研究を国内研究会で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
マルチモーダルデータ検索エンジンについては,人間の認知システムを参考にした意味抽出及び意味操作について様々な形での成果が出ており,当初目標にある情報検索への応用に道筋が立ちつつある.予備的な結果も出ていることから,進捗状況は順調である. 映像検索手法については,映像のフレーム中の領域と検索クエリ中の単語や句を対応づける手法は,本研究申請時の領域と単語を対応づける手法の発展型であり,進捗状況は想定以上である.ただし,TRECVID 2021で世界の各研究機関で開発された検索手法と性能比較したところ,開発手法の性能が不十分であることが分かった.原因として,句構造木で表される単語と句の階層的な関係を捨てて,単語と句を領域と独立的に対応づけているため,例えば「a woman wearing a dress」という名詞句と対応づけられた領域と「woman」という単語と対応づけられ領域が異なるという意味的に矛盾する対応づけが行われていた点が挙げられる.加えて,開発手法の検索モデルの学習に使用しているデータ量が不足している点も原因として考えられる.
|
Strategy for Future Research Activity |
マルチモーダルデータ検索エンジンについては,確率モデルを用いた意味の階層性や曖昧性の評価について予備的な結果を得ることができ,国内会議に投稿済みである.この手法の有効性を実証するため,多様な情報が無作為に収集され,価値のある情報とあまり価値のない情報が混在している状況を想定する.情報の階層性や曖昧性を用いることで,自然に価値の低い情報を見分け検索に用いないように学習することができる.このような考え方をさらに発展させ,当初目標である人間の認知システムを基にしたマルチモーダルデータ検索システムを構築する. 映像検索手法については,【現在までの進捗状況】で述べた,単語,句とフレーム中の領域の意味的に一貫した対応づけを実現するために,検索クエリから抽出された句構造木の葉ノードで表される単語から始めて,下位のノードの単語(もしくは句)と対応づけられた領域に重点をおきながら,上位のノードの句と領域を段階的に対応づける手法を開発する.さらに,領域を表現するための特徴の高品質化と学習データの拡張も行い,注意機構に基づいて単語や句と領域を対応づける検索手法の最終型を完成させる.加えて、句構造木に基づいて領域と単語,句を対応させていく中で,明らかに検索クエリに不適合であるフレームをフィルタリングして,検索速度を向上させる手法についても検討する.
|