2021 Fiscal Year Annual Research Report
異種メディア融合に基づく対話型マルチメディア検索技術の構築
Project/Area Number |
21J20307
|
Allocation Type | Single-year Grants |
Research Institution | Hokkaido University |
Principal Investigator |
柳 凜太郎 北海道大学, 情報科学院, 特別研究員(DC1)
|
Project Period (FY) |
2021-04-28 – 2024-03-31
|
Keywords | 画像検索 / 質問応答 / 再検索 |
Outline of Annual Research Achievements |
本年度には,データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法を大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセットを基に構築することを目的としていた. そこで,本年度の初めには,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることで,物体,物体の関係性および情景などの情報を検索候補から抽出した.その後,検索候補の画像が含まれるデータベースを解析することで,抽出した情報を含む検索候補のエントロピーをクエリとの関連性を考慮しつつ算出する手法を構築した.最終的に算出されたエントロピーに基づいて,検索候補を効果的に絞り込むことが可能な情報を推定する機械学習モデルを構築した.本年度には,以上の手法の構築に加えて,クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能であることを明らかにした. 本年度には,エントロピーに関する手法の構築や考察,また,効果的な情報を推定する機械学習モデルの構築に関して,2つの国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)にて発表を行っている.また,上述の研究成果をまとめることで論文誌(ACM Transactions on Multimedia Computing, Communications, and Applications)に採択されている.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度の目的としていた,「データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法の大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context)に基づく構築」を達成したため「(1)当初の計画以上に進展している.」を選択した. 研究当初に検討していた,「クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能である」という仮定の検証が滞りなく進んだことも「(1)当初の計画以上に進展している.」を選択した理由の一つである.仮定の検証が順調であった理由として,研究計画の段階で構想していた画像からの情報抽出やエントロピーの活用が効果的であったことが挙げられる.画像からの情報抽出においては,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることにより,入力した画像の物体,物体の関係性および情景などの情報を正確に抽出することが可能であった.また,エントロピーを活用することで,データベースを詳細に解析することが可能となり,検索候補の効果的な絞り込みに繋がった. 本年度に構築した手法や検証した仮定に関しては著名な国際会議や論文誌から好意的な評価を頂いた.具体的に,マルチメディアに関する最高峰の国際会議にて発表を行うと同時に,マルチメディア分野における最高峰の論文誌に採択された.
|
Strategy for Future Research Activity |
来年度以降の研究では,一年目に推定した情報から質問文を生成し,その回答に基づいて検索順位を再決定する手法を構築する予定である. 具体的に,コンピュータビジョンの手法であるVisual Question GenerationやVisual Question Answeringを参考にして,一年目で推定された物体,物体の関係性および情景などの情報を集約して質問文を生成する.また,生成された質問文に対するユーザからの回答により,該当する画像・映像が上位となるように検索順位を再決定する.以上により構築された手法を画像・映像・テキスト等が関連づいているデータセット(VisualGenome・Microsoft Common Objects in Context・ActivityNet)を用いることで検証する予定である. また,技術の実用化を目的として,構築した画像・映像再検索技術をエッジコンピューティングデバイス上で実現する予定である.具体的に,深層学習モデルのサイズを縮小するプルーニングやデータベースのサイズを縮小する蒸留の技術に基づいて,省メモリ化かつ計算量の削減を実現し,携帯端末などの多様なデバイスで動作可能とすることを目指す. 最終的には,上記により得られた研究成果をマルチメディアや検索に関する国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)で発表することに加えて,IEEE Transaction on Multimediaなどの論文誌に積極的に投稿することを予定している.また,実社会応用を見据えて,でデモンストレーションとしても発表する予定である.
|