• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

異種メディア融合に基づく対話型マルチメディア検索技術の構築

研究課題

研究課題/領域番号 21J20307
配分区分補助金
研究機関北海道大学

研究代表者

柳 凜太郎  北海道大学, 情報科学院, 特別研究員(DC1)

研究期間 (年度) 2021-04-28 – 2024-03-31
キーワード画像検索 / 質問応答 / 再検索
研究実績の概要

本年度には,データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法を大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセットを基に構築することを目的としていた.
そこで,本年度の初めには,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることで,物体,物体の関係性および情景などの情報を検索候補から抽出した.その後,検索候補の画像が含まれるデータベースを解析することで,抽出した情報を含む検索候補のエントロピーをクエリとの関連性を考慮しつつ算出する手法を構築した.最終的に算出されたエントロピーに基づいて,検索候補を効果的に絞り込むことが可能な情報を推定する機械学習モデルを構築した.本年度には,以上の手法の構築に加えて,クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能であることを明らかにした.
本年度には,エントロピーに関する手法の構築や考察,また,効果的な情報を推定する機械学習モデルの構築に関して,2つの国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)にて発表を行っている.また,上述の研究成果をまとめることで論文誌(ACM Transactions on Multimedia Computing, Communications, and Applications)に採択されている.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

本年度の目的としていた,「データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法の大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context)に基づく構築」を達成したため「(1)当初の計画以上に進展している.」を選択した.
研究当初に検討していた,「クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能である」という仮定の検証が滞りなく進んだことも「(1)当初の計画以上に進展している.」を選択した理由の一つである.仮定の検証が順調であった理由として,研究計画の段階で構想していた画像からの情報抽出やエントロピーの活用が効果的であったことが挙げられる.画像からの情報抽出においては,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることにより,入力した画像の物体,物体の関係性および情景などの情報を正確に抽出することが可能であった.また,エントロピーを活用することで,データベースを詳細に解析することが可能となり,検索候補の効果的な絞り込みに繋がった.
本年度に構築した手法や検証した仮定に関しては著名な国際会議や論文誌から好意的な評価を頂いた.具体的に,マルチメディアに関する最高峰の国際会議にて発表を行うと同時に,マルチメディア分野における最高峰の論文誌に採択された.

今後の研究の推進方策

来年度以降の研究では,一年目に推定した情報から質問文を生成し,その回答に基づいて検索順位を再決定する手法を構築する予定である. 具体的に,コンピュータビジョンの手法であるVisual Question GenerationやVisual Question Answeringを参考にして,一年目で推定された物体,物体の関係性および情景などの情報を集約して質問文を生成する.また,生成された質問文に対するユーザからの回答により,該当する画像・映像が上位となるように検索順位を再決定する.以上により構築された手法を画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context・ActivityNet)を用いることで検証する予定である.
また,技術の実用化を目的として,構築した画像・映像再検索技術をエッジコンピューティングデバイス上で実現する予定である.具体的に,深層学習モデルのサイズを縮小するプルーニングやデータベースのサイズを縮小する蒸留の技術に基づいて,省メモリ化かつ計算量の削減を実現し,携帯端末などの多様なデバイスで動作可能とすることを目指す.
最終的には,上記により得られた研究成果をマルチメディアや検索に関する国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)で発表することに加えて,IEEE Transaction on Multimediaなどの論文誌に積極的に投稿することを予定している.また,実社会応用を見据えて,でデモンストレーションとしても発表する予定である.

  • 研究成果

    (5件)

すべて 2022 2021

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち国際学会 2件)

  • [雑誌論文] Interactive Re-ranking via Object Entropy-Guided Question Answering for Cross-Modal Image Retrieval2022

    • 著者名/発表者名
      Yanagi Rintaro、Togo Ren、Ogawa Takahiro、Haseyama Miki
    • 雑誌名

      ACM Transactions on Multimedia Computing, Communications, and Applications

      巻: 18 ページ: 1~17

    • DOI

      10.1145/3485042

    • 査読あり
  • [雑誌論文] Domain Adaptive Cross-Modal Image Retrieval via Modality and Domain Translations2021

    • 著者名/発表者名
      YANAGI Rintaro、TOGO Ren、OGAWA Takahiro、HASEYAMA Miki
    • 雑誌名

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      巻: E104.A ページ: 866~875

    • DOI

      10.1587/transfun.2020IMP0011

    • 査読あり
  • [学会発表] ゴム材料開発のための generative adversarial network に基づく配合量および物性からの電子顕微鏡画像の生成に関する一検討2022

    • 著者名/発表者名
      柳 凜太郎, 藤後 廉, 前田 圭介, 小川 貴弘, 長谷山 美紀
    • 学会等名
      映像情報メディア学会技術報告
  • [学会発表] Database-adaptive re-ranking for enhancing cross-modal image retrieval2021

    • 著者名/発表者名
      Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    • 学会等名
      ACM International Conference on Multimedia
    • 国際学会
  • [学会発表] IR Questioner: QA-based interactive retrieval system2021

    • 著者名/発表者名
      Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    • 学会等名
      ACM International Conference on Multimedia Retrieval
    • 国際学会

URL: 

公開日: 2022-12-28   更新日: 2023-08-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi