2020 Fiscal Year Annual Research Report
Development of Multimodal Data Retrieval Engine Based on Human Cognitive System
Project/Area Number |
19H04172
|
Research Institution | Osaka Gakuin University |
Principal Investigator |
上原 邦昭 大阪学院大学, 経営学部, 教授 (60160206)
|
Co-Investigator(Kenkyū-buntansha) |
白浜 公章 近畿大学, 理工学部, 准教授 (30467675)
松原 崇 大阪大学, 基礎工学研究科, 准教授 (70756197)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | マルチモーダルデータ検索エンジン / 映像検索手法 / 深層学習 |
Outline of Annual Research Achievements |
本研究は,マルチモーダルデータ検索エンジンと映像検索手法の開発からなる。まずデータ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された,埋め込みと呼ばれる符号の間で類似関係を学習することで実現されている.しかし,このアプローチは性能の大部分がデータ量に依存しており,意味の曖昧性や包含関係や複合概念を扱うことができない.本年度は,埋め込みに包含関係や記号理論的関係を組み合わせるため,構造を持った埋め込み空間を利用することを検討した.複数の構造をソフトに組み合わせる手法を提案し,人工知能学会より優秀発表賞に選ばれた.また動的に意味空間を切り替える手法を提案し,論文誌に掲載された.さらに広い意味で意味空間を考慮する研究を行い,画像分類において公平性の向上させるよう意味空間を設計する方法や,データ空間がもつ幾何学的構造を保存したまま変換する手法などを提案し,それぞれ国会会議等に採録された. 人間の注意機構を考慮した映像検索手法に関しては,前年度開発した,映像のフレーム中の領域と検索クエリ中の単語を対応づける手法を,領域と名詞句も対応づけられるように拡張した.名詞句は,複数の単語からなる,より具体化された意味を表すため,人間の注意を特に引きやすいと考えられる.領域と名詞句の対応づけに加えて,分析するフレーム数と検索性能の関係の検証,フレームと検索クエリの全体的な対応関係に基づく手法の追加的な導入を行った結果,世界的な映像検索コンテストTRECVID Ad-hoc Video Search (AVS)部門で2019年度に開発された手法と比較して,最高精度を達成することに成功した.また,フレームという画像分析に関する知見をマイクロスコープからの画像に映る微生物の認識,映像という時系列データの分析に関する知見を生理学データに応用した論文が国際ジャーナルに収録された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データ駆動型のマルチモーダルデータ検索エンジンについては,本年度計画時に構想していた束論や一階述語論理との組み合わせについて検討したが,厳密な制約として課すと,データ駆動的な学習とコンフリクトすることがわかった.そのため,制約のソフトな組み合わせや意味空間の切り替えといった柔軟な方法の検討に方針を修正し,新たな研究課題とすることで,結果的に受賞や論文誌掲載につながった.そのため,得られた成果としては当初想定していたものに相当すると考え,進捗状況は順調であると考える. 人間の注意機構を考慮した映像検索手法については,研究申請時,映像のフレーム中の領域と単語を対応づけて検索する手法しか提案しておらず,本年度行ったフレームと名詞句を対応づける拡張は、そのさらなる発展型であるため,進捗状況は想定以上である.ただし,フレーム中の領域と名詞句の対応づけには改善の余地を残している.具体的には,例えば「red dress」のように,構成する単語の意味が名詞句の意味に直接関係している検索クエリに関しては性能向上が見られたが,例えば「black man」のblackが黒い色を表していないというように,名詞句を構成すると意味が変わる単語を含んだ検索クエリの場合はうまく検索が行えないことが判明した.そのため,映像検索手法のさらなる改良が必要であることが分かった.
|
Strategy for Future Research Activity |
データ駆動型のマルチモーダルデータ検索エンジンについては,計算機サーバ導入の遅延等により,大規模な実験がいまだ進んでいない.これまでに得られた成果を大規模化し,実験結果を国際会議や論文誌でまとめるととともに,当初予定していた確率的な埋め込みを洗練させて成果を得る予定である. 人間の注意機構を考慮した映像検索手法については,現在の映像のフレーム中の領域と名詞句を対応づける手法の問題として,名詞句を表現する特徴を単に構成要素の単語の特徴の平均と画一的に扱っている点が考えられる.そのため,「black man」のblackのように,単体での特徴と名詞句中での特徴が変化する単語をうまく扱えていないと考えられる.そこで,検索クエリを構文解析して得られた句構造木に,再起型ニューラルネットワークを適用して,構成要素の単語の特徴から名詞句の特徴を動的に構成し,フレーム中の領域と名詞句を対応づける手法を開発する.加えて,名詞句だけでなく,動詞句とフレーム中の領域を対応づけて検索する手法や,学習データ中の名詞句の出現頻度の低さを補完するための言語コーパスの追加的な利用などを検討する.
|