• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

Development of Multimodal Data Retrieval Engine Based on Human Cognitive System

Research Project

Project/Area Number 19H04172
Research InstitutionKobe University

Principal Investigator

上原 邦昭  神戸大学, システム情報学研究科, 教授 (60160206)

Co-Investigator(Kenkyū-buntansha) 白浜 公章  近畿大学, 理工学部, 准教授 (30467675)
松原 崇  神戸大学, システム情報学研究科, 助教 (70756197)
Project Period (FY) 2019-04-01 – 2023-03-31
Keywords情報検索 / 表現学習 / 不確実性 / 深層学習 / TRECVID
Outline of Annual Research Achievements

データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチでは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができないという問題がある.本年度はこの埋め込みについて,情報抽出の高度化と出力結果の理解という2つの視点から研究を行った.情報抽出の高度化に関しては知識グラフデータへの適応というトップダウンなテーマと,深層生成モデルによる教師なし特徴抽出,少数データのへの適応というボトムアップなテーマに分けられ,1本の原著論文と1本の国際会議論文が採択された.また効率化のためにネットワーク構造の調整にも取り組み,1本の国際会議論文が採択された.出力結果の理解という視点では,公平性や較正度の評価に取り組み,基礎的な研究成果を得ることができた.

さらに,人間の注意機構を考慮した映像検索手法を開発した.具体的には,人間は,テキスト形式のクエリに映像が適合するか吟味する際に,クエリに含まれる各単語ごとに映像中の特定の領域に注意を向けながら,両者が概念的に対応しているかどうか逐次的に検証している.この点に着目して,単語と映像中の領域の対応関係を取りながら,クエリに適合する映像を検索する手法を開発した.本手法の有効性を検証するために,映像解析に関する国際競争型ワークショップTRECVID 2019に参加した.特に,100万本以上の映像の中から,「人がツールを使って何かを切っている」,「日中に走行しているトラック」といったクエリに適合する映像を検索するアドホック映像部門で本手法の性能を評価した.結果として,参加した9つの研究機関の中で,アリババ,中国人民大学,ソフトバンクと早稲田大の合同チーム,モナシュ大学に続く,5位の成績を収めることができた.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができない.現在まで,情報抽出の高度化と出力結果の理解という2つの視点から研究を行っている.情報抽出の高度化に関しては知識グラフデータへの適応というトップダウンなテーマと,深層生成モデルによる教師なし特徴抽出,少数データのへの適応というボトムアップなテーマに分けられ,1本の原著論文と1本の国際会議論文が採択された.また効率化のためネットワーク構造の調整にも取り組み,1本の国際会議論文が採択された.出力結果の理解という視点では公平性や較正度の評価に取り組み,基礎的な研究成果を得ることができた.

人間の注意機構に基づく映像検索手法に関しては,全体的なフレームワークは完成し,国際競争型ワークショップTRECVID 2019でも,まずまずの成績を収めることができた.しかしながら,実際に手法を実装しテストしてみた結果,多くの問題があることが分かった.まずは,検索速度に関する問題であり,単語と映像中の領域のあらゆる対応関係を考慮しなければならないため,100万本の映像に対する検索を終えるのに,現状では1日以上要している.加えて,検索性能をさらに向上させるためには,単語だけでなく連語を考慮する必要性,未知語に対する処理,複数の視覚特徴(領域だけでなく,フレーム全体,フレームの時間変化に関する視覚特徴など)を考慮する必要性があることが分かった.

Strategy for Future Research Activity

データ駆動型のマルチモーダルデータ検索エンジンは,ブラックボックス的に獲得された埋め込みと呼ばれる符号の間で,類似関係を学習することで実現されている.しかしこのようなアプローチは性能の大部分をデータ量に依存し,意味の曖昧性や包含関係や複合概念を扱うことができない.今後はこの埋め込みに,古典的な束論を用いた意味の包含関係や,一階述語論理を組み合わせることを研究する.記号論理は離散的であるから,勾配法で学習される一般的なデータ駆動型手法と組み合わせるため,順序ベクトル空間のような順序構造を持った埋め込み空間などを利用する.これによって,汎化性が高く直感的に複雑なクエリを扱える検索エンジン構築の基礎づくりをする.

さらに,映像のフレーム中の領域とクエリ中の名詞節(連語)を対応づける映像検索手法を開発する。ここで,領域と名詞節のあらゆる対応関係を考慮しなければならないため,検索速度が問題になってくる.そこで,クエリを構文解析して得られる木構造に基づいて,フレーム全体とクエリ全体,領域と名詞句,領域と単語というように,段階的に詳細な対応づけを吟味する手法を開発して,検索精度だけでなく,検索速度の向上も図る.未知語を考慮した検索に関しては,Web上から収集された画像の大半は未知語に適合すると仮定して,視覚特徴に基づく異常検出を行って,未知語に不適合だと思われる画像を排除した上で,上記の埋め込み手法に対する追加の学習例として使用する.

  • Research Products

    (12 results)

All 2020 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (11 results)

  • [Journal Article] Deep State-Space Model for Noise Tolerant Skeleton-based Action Recognition2020

    • Author(s)
      Kazuki Kawamura, Takashi Matsubara, and Kuniaki Uehara
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E103.D Pages: 1217-1225

    • DOI

      10.1587/transinf.2019MVP0012

    • Peer Reviewed / Open Access
  • [Presentation] Att-DARTS: Differentiable Neural Architecture Search for Attention2020

    • Author(s)
      Kohei Nakai, Takashi Matsubara, and Kuniaki Uehara
    • Organizer
      Proc. of The 2020 International Joint Conference on Neural Networks (IJCNN2020)
  • [Presentation] Cross-modal Music-emotion Retrieval Using DeepCCA2020

    • Author(s)
      Naoki Takashima, Frederic Li, Marcin Grzegorzek and Kimiaki Shirahama
    • Organizer
      Proc. of the Eighth International Conference on Information Technology in Biomedicine (ITIB 2020)
  • [Presentation] Training Pedestrians' Detector Based on Hybrid Loss with Weak Annotations2020

    • Author(s)
      Boqian Zhou, Hirokazu Nomoto, Takashi Matsubara, and Kuniaki Uehara
    • Organizer
      Proc. of The 8th Korea-Japan Joint Workshop on Complex Communication Sciences (KJCCS)
  • [Presentation] Neural ODEを用いた超解像ニューラルネットワークの高精度化2020

    • Author(s)
      木村匠, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会総合大会講演論文集, N-1-26
  • [Presentation] 深層学習におけるモデルの信頼性評価指標の検討2020

    • Author(s)
      吉田和輝, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会総合大会講演論文集, N-1-27
  • [Presentation] 敵対的攻撃に対する公平な分類器の脆弱性2020

    • Author(s)
      綿岡晃輝, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会総合大会講演論文集, D-12-7
  • [Presentation] 公平性が引き起こす敵対的攻撃に対する脆弱性2020

    • Author(s)
      綿岡晃輝, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会 情報論的学習理論と機械学習研究会, vol. 119, no. 476, IBISML2019-48, pp .101-105
  • [Presentation] 遷移関数とスコア関数の分離による知識グラフの補完2020

    • Author(s)
      濱健太, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会 情報論的学習理論と機械学習研究会, vol. 119, no. 476, IBISML2019-48, pp. 59-62
  • [Presentation] Kindai University and Kobe University at TRECVID 2019 AVS Task2019

    • Author(s)
      Kimiaki Shirahama, Daichi Sakurai, Takashi Matsubara and Kuniaki Uehara
    • Organizer
      Proc. of TREC Video Retrieval Evaluation (TRECVID) 2019 Workshop
  • [Presentation] 自動運転向け物体検出システムのための敵対的昼夜変換2019

    • Author(s)
      藤岡和暉, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会 情報論的学習理論と機械学習研究会, vol. 119, no. 89, IBISML2019-2, pp. 9-14
  • [Presentation] ベイズ的深層学習を用いた画像テキスト検索における信頼性評価2019

    • Author(s)
      濱健太, 松原崇, 上原邦昭
    • Organizer
      電子情報通信学会 情報論的学習理論と機械学習研究会, vol. 119, no. 89, IBISML2019-1, pp. 1-8

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi