研究実績の概要 |
2019年度は,計画通り【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」を中心に取り組んだ.2018年の取り組みである【研究項目2】「言語・画像・映像資源を用いた潜在的な概念の獲得」において,大規模な言語・画像・映像データベース,特にその中でも言語資源の単語数の豊富さが映像検索の精度を左右することがわかった.そのため2019年度は,まず画像に対応する説明文(キャプション)が付与されているデータベース調査し,MS COCO(画像数:約120,000,キャプション数:約600,000),flickr 8k(画像数:約8,000,キャプション数:約40,000),flickr 30k(画像数:約30,000,キャプション数:150,000),Conceptual Captions(画像数:約3,000,000,キャプション数:約3,000,000)を統合した大規模データベースを構築した.次にニューラルネットワークを用いて画像と説明文を同一空間上に写像するモデルの学習を行う画像/言語の同時埋め込み手法を実装した.TRECVIDベンチマークの大規模映像と実際にベンチマークで出題されたクエリ文を用いて,この手法の有効性を確認した.画像/言語の同時埋め込み手法では,大量のキャプション付きの画像を学習してモデルを作成したことから,事前に学習された概念識別器を活用する手法(コンセプトベースの手法)でカバーできない概念の多くを補完できることがわかった.特に「a crowd of people」,「talking on a cell phone」のようなフレーズに対応できることが確認できた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
【研究項目1】「クエリ文に合致した少量の映像からの潜在的概念の獲得」については,2018年度に予定通り研究を遂行できた.TRECVIDベンチマークのAVSタスクで用いられている300,000個以上の映像,事前準備していた約50,000種類の概念抽出器を用いて評価することで,その有効性を確認済み. 【研究項目2】の①「言語資源を用いた方法」については,Universal Sentence Encoderの活用と,英語の概念辞書(意味辞書)であるWordNetの導入により,潜在的概念を獲得可能となった.②「画像・映像資源を用いた方法」,③「双方を統合する方法」については,【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」と同時に取り組むことで実現可能となった. 【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」は,上記の研究実績の概要で示した通り,MS COCO, flickr 8k,flickr 30k,Conceptual Captionsといった大規模な画像とキャプションデータベースを用いて学習を行い,画像と説明文を同一空間上に写像する方法(画像/言語の同時埋め込み手法)を検討した.TRECVIDベンチマークの大規模映像を用いた評価により、クエリ文から直接的に映像検索を行えることが確認できた. 以上,2018年度,2019年度に実施予定の【研究項目1】,【研究項目2】,【研究項目3】は予定通り進んでいる.
|