2022 年度実績報告書

異種メディア融合に基づく対話型マルチメディア検索技術の構築

研究課題

研究課題/領域番号	21J20307
配分区分	補助金
研究機関	北海道大学
研究代表者	柳凜太郎北海道大学, 情報科学院, 特別研究員(DC1)
研究期間 (年度)	2021-04-28 – 2024-03-31
キーワード	画像検索 / 質問応答 / 再検索
研究実績の概要	本年度には，VGG19モデル，ResNetモデルおよびTransformerモデルなどの大規模な深層学習モデルから推定されたデータベース内の画像・映像を効率的に絞り込むことが可能な情報を用いることで，ユーザに問いかけるための質問文を生成し，その回答に基づいて検索順位を再決定する手法の構築を目的としていた．そこで，本年度の初めには，推定された情報を集約して，Visual Question Generationモデルに基づいて処理することで，ユーザに問いかけるための質問文を生成した．その後，生成された質問文に基づいてユーザとの質疑応答を行うことで，目的の画像・映像を絞り込むための情報を取得した．最後に，取得したユーザからの回答に該当する画像・映像が上位となるように検索順位を再決定する．上記により構築した質問文生成モデルに対して，検索システムが必要とする情報をユーザにとって理解しやすい形式の質問文で問い合わせることが可能になることを明らかにした．本年度には，複数の情報を統合的に処理して質問文を生成することが可能なVisual Question Generationモデルの構築に関して，1つの国内会議(第25回画像の認識・理解シンポジウム MIRU 2022)および1つの国際会議( IEEE Global Conference on Consumer Electronics)で発表を行っている．また，上述の研究成果をまとめることで論文誌(IEEE Open Journal of Signal Processing)に採択されている．さらに，第25回画像の認識・理解シンポジウム MIRU 2022では2022 MIRU 学生奨励賞を受賞している．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本年度の目的としていた，「大規模な深層学習モデルから推定された画像・映像を効率的に絞り込むことが可能な情報を用いることで，ユーザに問いかけるための質問文を生成し，その回答に基づいて検索順位を再決定する手法の構築」を達成したため「(1)当初の計画以上に進展している．」を選択した．研究当初に検討していた，「ユーザが理解可能な質問文を質問文生成モデルに基づいて生成可能である」という仮定の検証が滞りなく進んだことも「(1)当初の計画以上に進展している．」を選択した理由の一つである．仮定の検証が順調であった理由として，研究計画の段階で構想していたデータベース内の画像・映像を効率的に絞り込むことが可能な情報からの質問文生成が効果的であったことが挙げられる．質問文生成においては，Visual Question Answeringデータセットなどの既存のデータセットに基づいて学習されたVisual Question Generationモデルを再検索用に再学習することにより，ユーザにとって理解のしやすい質問文を生成することが可能になった．また，生成された質問文を活用することで，ユーザからの効果的なフィードバックを受け取ることが可能となり，検索候補の効果的な絞り込みに繋がった．本年度に構築した手法や検証した仮定に関しては著名な国際会議や論文誌から好意的な評価を頂いた．具体的に，国内最大規模の画像処理に関するシンポジウムにて受賞すると同時に，信号処理の分野における最高峰の論文誌(IEEE Open Journal of Signal Processing)に採択された．
今後の研究の推進方策	来年度以降の研究では，技術の実用化を目的として,申請者が一年目,二年目で構築した画像・映像再検索技術をエッジコンピューティングデバイス上で実現する予定である.　具体的には，深層学習モデルのサイズを縮小するnetwork pruning・teacher-studentおよびデータベースのサイズを縮小するimage distillationの技術に基づいて，構築したVisual Question Generationモデルや検索手法の省メモリ化および計算量の削減を実現する．また，実際の画像・映像再検索アプリケーションを作成することで，携帯端末(Android端末)や複合現実端末(Magic leap)などの多様なデバイスで動作可能であることを確認する予定である．最終的には，上記により得られた研究成果をマルチメディアや検索に関する国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)で発表することに加えて，IEEE Transaction on Multimediaなどの論文誌に積極的に投稿することを予定している．また，実社会応用を見据えてデモンストレーションとしても発表する予定である．

研究成果
(3件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Recallable Question Answering-Based Re-Ranking Considering Semantic Region for Cross-Modal Retrieval2023
- 著者名/発表者名
  Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
- 雑誌名
  
  IEEE Open Journal of Signal Processing
  
  巻: 4 ページ: 1-11
- DOI
  10.1109/OJSP.2023.3238280
- 査読あり / オープンアクセス
[学会発表] Cross-modal image retrieval considering semantic relationships with object information2022
- 著者名/発表者名
  Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
- 学会等名
  IEEE Global Conference on Consumer Electronics
- 国際学会
[学会発表] Database-adaptive transfer learning for question answering-based re-ranking in cross-modal retrieval2022
- 著者名/発表者名
  Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
- 学会等名
  第25回画像の認識・理解シンポジウム (MIRU 2022)

2022 年度 実績報告書

異種メディア融合に基づく対話型マルチメディア検索技術の構築

研究代表者

柳 凜太郎 北海道大学, 情報科学院, 特別研究員(DC1)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Recallable Question Answering-Based Re-Ranking Considering Semantic Region for Cross-Modal Retrieval2023

著者名/発表者名

雑誌名

DOI

[学会発表] Cross-modal image retrieval considering semantic relationships with object information2022

著者名/発表者名

学会等名

[学会発表] Database-adaptive transfer learning for question answering-based re-ranking in cross-modal retrieval2022

著者名/発表者名

学会等名

2022 年度実績報告書

柳凜太郎北海道大学, 情報科学院, 特別研究員(DC1)