• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

異種メディア融合に基づく対話型マルチメディア検索技術の構築

Research Project

Project/Area Number 21J20307
Allocation TypeSingle-year Grants
Research InstitutionHokkaido University

Principal Investigator

柳 凜太郎  北海道大学, 情報科学院, 特別研究員(DC1)

Project Period (FY) 2021-04-28 – 2024-03-31
Keywords画像検索 / 質問応答 / 再検索
Outline of Annual Research Achievements

本年度には,データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法を大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセットを基に構築することを目的としていた.
そこで,本年度の初めには,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることで,物体,物体の関係性および情景などの情報を検索候補から抽出した.その後,検索候補の画像が含まれるデータベースを解析することで,抽出した情報を含む検索候補のエントロピーをクエリとの関連性を考慮しつつ算出する手法を構築した.最終的に算出されたエントロピーに基づいて,検索候補を効果的に絞り込むことが可能な情報を推定する機械学習モデルを構築した.本年度には,以上の手法の構築に加えて,クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能であることを明らかにした.
本年度には,エントロピーに関する手法の構築や考察,また,効果的な情報を推定する機械学習モデルの構築に関して,2つの国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)にて発表を行っている.また,上述の研究成果をまとめることで論文誌(ACM Transactions on Multimedia Computing, Communications, and Applications)に採択されている.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

本年度の目的としていた,「データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法の大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context)に基づく構築」を達成したため「(1)当初の計画以上に進展している.」を選択した.
研究当初に検討していた,「クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能である」という仮定の検証が滞りなく進んだことも「(1)当初の計画以上に進展している.」を選択した理由の一つである.仮定の検証が順調であった理由として,研究計画の段階で構想していた画像からの情報抽出やエントロピーの活用が効果的であったことが挙げられる.画像からの情報抽出においては,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることにより,入力した画像の物体,物体の関係性および情景などの情報を正確に抽出することが可能であった.また,エントロピーを活用することで,データベースを詳細に解析することが可能となり,検索候補の効果的な絞り込みに繋がった.
本年度に構築した手法や検証した仮定に関しては著名な国際会議や論文誌から好意的な評価を頂いた.具体的に,マルチメディアに関する最高峰の国際会議にて発表を行うと同時に,マルチメディア分野における最高峰の論文誌に採択された.

Strategy for Future Research Activity

来年度以降の研究では,一年目に推定した情報から質問文を生成し,その回答に基づいて検索順位を再決定する手法を構築する予定である. 具体的に,コンピュータビジョンの手法であるVisual Question GenerationやVisual Question Answeringを参考にして,一年目で推定された物体,物体の関係性および情景などの情報を集約して質問文を生成する.また,生成された質問文に対するユーザからの回答により,該当する画像・映像が上位となるように検索順位を再決定する.以上により構築された手法を画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context・ActivityNet)を用いることで検証する予定である.
また,技術の実用化を目的として,構築した画像・映像再検索技術をエッジコンピューティングデバイス上で実現する予定である.具体的に,深層学習モデルのサイズを縮小するプルーニングやデータベースのサイズを縮小する蒸留の技術に基づいて,省メモリ化かつ計算量の削減を実現し,携帯端末などの多様なデバイスで動作可能とすることを目指す.
最終的には,上記により得られた研究成果をマルチメディアや検索に関する国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)で発表することに加えて,IEEE Transaction on Multimediaなどの論文誌に積極的に投稿することを予定している.また,実社会応用を見据えて,でデモンストレーションとしても発表する予定である.

  • Research Products

    (5 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (3 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Interactive Re-ranking via Object Entropy-Guided Question Answering for Cross-Modal Image Retrieval2022

    • Author(s)
      Yanagi Rintaro、Togo Ren、Ogawa Takahiro、Haseyama Miki
    • Journal Title

      ACM Transactions on Multimedia Computing, Communications, and Applications

      Volume: 18 Pages: 1~17

    • DOI

      10.1145/3485042

    • Peer Reviewed
  • [Journal Article] Domain Adaptive Cross-Modal Image Retrieval via Modality and Domain Translations2021

    • Author(s)
      YANAGI Rintaro、TOGO Ren、OGAWA Takahiro、HASEYAMA Miki
    • Journal Title

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      Volume: E104.A Pages: 866~875

    • DOI

      10.1587/transfun.2020IMP0011

    • Peer Reviewed
  • [Presentation] ゴム材料開発のための generative adversarial network に基づく配合量および物性からの電子顕微鏡画像の生成に関する一検討2022

    • Author(s)
      柳 凜太郎, 藤後 廉, 前田 圭介, 小川 貴弘, 長谷山 美紀
    • Organizer
      映像情報メディア学会技術報告
  • [Presentation] Database-adaptive re-ranking for enhancing cross-modal image retrieval2021

    • Author(s)
      Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    • Organizer
      ACM International Conference on Multimedia
    • Int'l Joint Research
  • [Presentation] IR Questioner: QA-based interactive retrieval system2021

    • Author(s)
      Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    • Organizer
      ACM International Conference on Multimedia Retrieval
    • Int'l Joint Research

URL: 

Published: 2022-12-28   Modified: 2023-08-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi