研究実績の概要 |
本年度には,データベース内の画像・映像を効率的に絞り込むことが可能な情報を推定する手法を大規模な深層学習モデル (VGG19モデルやResNetモデルなど)および画像・映像・テキスト等が関連づいているデータセットを基に構築することを目的としていた. そこで,本年度の初めには,物体検出モデル(You Only Look Once)やセマンティックセグメンテーションモデル(Mask Region-Convolutional Neural Network)などの画像・映像認識手法を統合的に用いることで,物体,物体の関係性および情景などの情報を検索候補から抽出した.その後,検索候補の画像が含まれるデータベースを解析することで,抽出した情報を含む検索候補のエントロピーをクエリとの関連性を考慮しつつ算出する手法を構築した.最終的に算出されたエントロピーに基づいて,検索候補を効果的に絞り込むことが可能な情報を推定する機械学習モデルを構築した.本年度には,以上の手法の構築に加えて,クエリ文に含まれない新規の情報を画像・映像認識手法により抽出可能であることを明らかにした. 本年度には,エントロピーに関する手法の構築や考察,また,効果的な情報を推定する機械学習モデルの構築に関して,2つの国際会議(ACM International Conference on Multimedia, ACM International Conference on Multimedia Retrieval)にて発表を行っている.また,上述の研究成果をまとめることで論文誌(ACM Transactions on Multimedia Computing, Communications, and Applications)に採択されている.
|