2022 Fiscal Year Annual Research Report
異種メディア融合に基づく対話型マルチメディア検索技術の構築
Project/Area Number |
21J20307
|
Allocation Type | Single-year Grants |
Research Institution | Hokkaido University |
Principal Investigator |
柳 凜太郎 北海道大学, 情報科学院, 特別研究員(DC1)
|
Project Period (FY) |
2021-04-28 – 2024-03-31
|
Keywords | 画像検索 / 質問応答 / 再検索 |
Outline of Annual Research Achievements |
本年度には,VGG19モデル,ResNetモデルおよびTransformerモデルなどの大規模な深層学習モデル から推定されたデータベース内の画像・映像を効率的に絞り込むことが可能な情報を用いることで,ユーザに問いかけるための質問文を生成し,その回答に基づいて検索順位を再決定する手法の構築を目的としていた.そこで,本年度の初めには,推定された情報を集約して,Visual Question Generationモデルに基づいて処理することで,ユーザに問いかけるための質問文を生成した.その後,生成された質問文に基づいてユーザとの質疑応答を行うことで,目的の画像・映像を絞り込むための情報を取得した.最後に,取得したユーザからの回答に該当する画像・映像が上位となるように検索順位を再決定する.上記により構築した質問文生成モデルに対して,検索システムが必要とする情報をユーザにとって理解しやすい形式の質問文で問い合わせることが可能になることを明らかにした.本年度には,複数の情報を統合的に処理して質問文を生成することが可能なVisual Question Generationモデルの構築に関して,1つの国内会議(第25回 画像の認識・理解シンポジウム MIRU 2022)および1つの国際会議( IEEE Global Conference on Consumer Electronics)で発表を行っている.また,上述の研究成果をまとめることで論文誌(IEEE Open Journal of Signal Processing)に採択されている.さらに,第25回 画像の認識・理解シンポジウム MIRU 2022では2022 MIRU 学生奨励賞を受賞している.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度の目的としていた,「大規模な深層学習モデルから推定された画像・映像を効率的に絞り込むことが可能な情報を用いることで,ユーザに問いかけるための質問文を生成し,その回答に基づいて検索順位を再決定する手法の構築」を達成したため「(1)当初の計画以上に進展している.」を選択した.研究当初に検討していた,「ユーザが理解可能な質問文を質問文生成モデルに基づいて生成可能である」という仮定の検証が滞りなく進んだことも「(1)当初 の計画以上に進展している.」を選択した理由の一つである.仮定の検証が順調であった理由として,研究計画の段階で構想していたデータベース内の画像・映像を効率的に絞り込むことが可能な情報からの質問文生成が効果的であったことが挙げられる.質問文生成においては,Visual Question Answeringデータセットなどの既存のデータセットに基づいて学習されたVisual Question Generationモデルを再検索用に再学習することにより,ユーザにとって理解のしやすい質問文を生成することが可能になった.また,生成された質問文を活用することで,ユーザからの効果的なフィードバックを受け取ることが可能となり,検索候補の効果的な絞り込みに繋がった. 本年度に構築した手法や検証した仮定に関しては著名な国際会議や論文誌から好意的な評価を頂いた.具体的に,国内最大規模の画像処理に関するシンポジウムにて受賞すると同時に,信号処理の分野における最高峰の論文誌(IEEE Open Journal of Signal Processing)に採択された.
|
Strategy for Future Research Activity |
来年度以降の研究では,技術の実用化を目的として,申請者が一年目,二年目で構築した画像・映像再検索技術をエッジコンピューティングデバイス上で実現する予定である. 具体的には,深層学習モデルのサイズを縮小するnetwork pruning・teacher-studentおよびデータベースのサイズを縮小するimage distillationの技術に基づいて,構築したVisual Question Generationモデルや検索手法の省メモリ化および計算量の削減を実現する.また,実際の画像・映像再検索アプリケーションを作成することで,携帯端末(Android端末)や複合現実端末(Magic leap)などの多様なデバイスで動作可能であることを確認する予定である.最終的には,上記により得られた研究成果をマルチメディアや検索に関する国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)で発表することに加えて,IEEE Transaction on Multimediaなどの論文誌に積極的に投稿することを予定している.また,実社会応用を見据えてデモンストレーションとしても発表する予定である.
|