研究課題/領域番号 |
19H04172
|
研究機関 | 神戸大学 |
研究代表者 |
上原 邦昭 神戸大学, システム情報学研究科, 教授 (60160206)
|
研究分担者 |
白浜 公章 近畿大学, 理工学部, 准教授 (30467675)
松原 崇 神戸大学, システム情報学研究科, 助教 (70756197)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 情報検索 / 表現学習 / 不確実性 / 深層学習 / TRECVID |
研究実績の概要 |
データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチでは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができないという問題がある.本年度はこの埋め込みについて,情報抽出の高度化と出力結果の理解という2つの視点から研究を行った.情報抽出の高度化に関しては知識グラフデータへの適応というトップダウンなテーマと,深層生成モデルによる教師なし特徴抽出,少数データのへの適応というボトムアップなテーマに分けられ,1本の原著論文と1本の国際会議論文が採択された.また効率化のためにネットワーク構造の調整にも取り組み,1本の国際会議論文が採択された.出力結果の理解という視点では,公平性や較正度の評価に取り組み,基礎的な研究成果を得ることができた.
さらに,人間の注意機構を考慮した映像検索手法を開発した.具体的には,人間は,テキスト形式のクエリに映像が適合するか吟味する際に,クエリに含まれる各単語ごとに映像中の特定の領域に注意を向けながら,両者が概念的に対応しているかどうか逐次的に検証している.この点に着目して,単語と映像中の領域の対応関係を取りながら,クエリに適合する映像を検索する手法を開発した.本手法の有効性を検証するために,映像解析に関する国際競争型ワークショップTRECVID 2019に参加した.特に,100万本以上の映像の中から,「人がツールを使って何かを切っている」,「日中に走行しているトラック」といったクエリに適合する映像を検索するアドホック映像部門で本手法の性能を評価した.結果として,参加した9つの研究機関の中で,アリババ,中国人民大学,ソフトバンクと早稲田大の合同チーム,モナシュ大学に続く,5位の成績を収めることができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができない.現在まで,情報抽出の高度化と出力結果の理解という2つの視点から研究を行っている.情報抽出の高度化に関しては知識グラフデータへの適応というトップダウンなテーマと,深層生成モデルによる教師なし特徴抽出,少数データのへの適応というボトムアップなテーマに分けられ,1本の原著論文と1本の国際会議論文が採択された.また効率化のためネットワーク構造の調整にも取り組み,1本の国際会議論文が採択された.出力結果の理解という視点では公平性や較正度の評価に取り組み,基礎的な研究成果を得ることができた.
人間の注意機構に基づく映像検索手法に関しては,全体的なフレームワークは完成し,国際競争型ワークショップTRECVID 2019でも,まずまずの成績を収めることができた.しかしながら,実際に手法を実装しテストしてみた結果,多くの問題があることが分かった.まずは,検索速度に関する問題であり,単語と映像中の領域のあらゆる対応関係を考慮しなければならないため,100万本の映像に対する検索を終えるのに,現状では1日以上要している.加えて,検索性能をさらに向上させるためには,単語だけでなく連語を考慮する必要性,未知語に対する処理,複数の視覚特徴(領域だけでなく,フレーム全体,フレームの時間変化に関する視覚特徴など)を考慮する必要性があることが分かった.
|
今後の研究の推進方策 |
データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができない.今後はこの埋め込みに,古典的な束論を用いた意味の包含関係や,一階述語論理を組み合わせることを研究する.記号論理は離散的であるから,勾配法で学習される一般的なデータ駆動型手法と組み合わせるため,順序ベクトル空間のような順序構造を持った埋め込み空間などを利用する.これによって,汎化性が高く直感的に複雑なクエリを扱える検索エンジン構築の基礎づくりをする.
さらに,映像のフレーム中の領域とクエリ中の名詞節(連語)を対応づける映像検索手法を開発する。ここで,領域と名詞節のあらゆる対応関係を考慮しなければならないため,検索速度が問題になってくる.そこで,クエリを構文解析して得られる木構造に基づいて,フレーム全体とクエリ全体,領域と名詞句,領域と単語というように,段階的に詳細な対応づけを吟味する手法を開発して,検索精度だけでなく,検索速度の向上も図る.未知語を考慮した検索に関しては,Web上から収集された画像の大半は未知語に適合すると仮定して,視覚特徴に基づく異常検出を行って,未知語に不適合だと思われる画像を排除した上で,上記の埋め込み手法に対する追加の学習例として使用する.
|