2018 Fiscal Year Annual Research Report
Deep semantic annotation of video contents
Project/Area Number |
17H01831
|
Research Institution | Waseda University |
Principal Investigator |
林 良彦 早稲田大学, 理工学術院, 教授(任期付) (80379156)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 恒昭 東京大学, 大学院総合文化研究科, 教授 (60334299)
小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)
植木 一也 明星大学, 情報学部, 准教授 (80580638)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 情報資源の構築・管理 / 動画 / 意味的注釈 / シーングラフ生成 / キャプション生成 / 動詞意味論 / 語彙意味関係 / オントロジー |
Outline of Annual Research Achievements |
本研究課題の目的は,動画中の主体者の動作内容を表す意味注釈を付与する方式を実現することにある.2年目にあたる2018年度は,以下の項目について,おおむね順調な進展を得た.(雑誌論文:2件,国際会議発表:12件,国内会議発表:16件,図書:1件) (1) シーングラフの効率的な生成: 動画のフレーム画像に描写されている物体 (主体者含む),および,それらの間の関係をグラフ構造として抽出し,キーフレーム画像群に対する系列として整形・整列させることにより意味注釈を得る.本年度は,言語特徴量を含む様々な特徴量を利用しつつ,効率的なグラフ生成が可能となる計算機構を実現し,良好な精度を得た. (2) 動画に対する動作キャプション生成: 動画から言語表現による動作キャプションを生成し,これをもとに意味注釈を抽出するアプローチの研究を新たに開始した.一般的なキャプションの生成を仮定し,ここから主体者による主な動作を表す内容のみを抽出して,言語解析が容易な表現として生成する方法を実現する.本年度は,既存のデータセットをもとに書き換え正解例のデータセット作成を進めた.また,文分割タスクで事前学習した書き換えモデルをドメイン適用によりファインチューンし,さらにコピー機構を導入することにより,妥当な動作キャプションの生成が行える見通しを得た. (3) 動画アドホック検索への適用の試行: 昨年度に引き続き,TRECVID AVSタスクを対象にクエリに基づく動画検索方式の研究を進めた. (4) 言語の意味表現に関する基礎研究の推進: 語彙意味関係の認識の高度化を推進した.また,汎用的な文の分散表現の構成法,従来の機械読解タスクの仮定の限界をこえる読解方式 (回答がない質問を正しく検出できる) を研究するために不可欠なデータセットの構築法などについて研究を進め,トップレベルの国際会議で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画していた,動画に対する意味的注釈のためのオントロジー体系の構築については引き続き大規模な画像データセットに対する分析を進めたが,データのノイズなどのために有用な結果を得るに至っていない.一方で,言語の意味表現の構成法に関しては,単語ペア間の意味関係の識別や,汎用的な文の分散表現の構成法などにおいて,一定の進捗を得ることができ,これは,上記のオントロジー体系の構築において有用な補助手段を与えるものと評価できる.また,シーングラフの効率的かつ精度の良い生成法を確立することができ,さらに新たに着手した文書き換え技術の適用による動作キャプションの生成に関しても有効性を確認することができた.以上を総合して,おおむね順調に進展していると評価する.
|
Strategy for Future Research Activity |
(1) シーングラフ生成の高度化: 局所的な特徴量を利用する方式については,精度,効率ともに一定の結果を得たので,シーングラフ精度の飛躍的な向上を目指すために,(a) シーンに関する大局的な特徴やフレーム画像の時系列的な特徴を統合する方法論,(b) 物体間の大小関係や物体が存在しうる空間的制約などの制約を適用する基礎的な方式について検討を進める. (2) 動画に対する動作キャプション生成: 一般キャプションの書き換えによって動作キャプションを得る方法に関しては,別途認識される動作種別の情報を制約として利用することにより,さらに精度を高める方法を検討する.さらには,一般キャプション生成から動作キャプション生成という2段階の処理過程をエンドツーエンドで実現する方式の検討を開始する. (3) 動画アドホック検索への適用の試行: 引き続き TRECVID AVS タスクを対象に,同社キャプションに対する言語情報による検索のフィージビリティ・スタディを進め,可能であれば,従来の画像情報に基づく検索方式との統合による精度向上について検討を開始する.また,適切な評価尺のの提案へ向けて,実証的な検討を進める. (4) 言語の意味表現に関する基礎研究の推進: 引き続き,本課題の様々な箇所・過程に適用可能な言語表現に関する基礎研究を推進する.これらの研究をもとに,動画に対する深い意味注釈を行うための語彙 (オントロジー) 体系の検討を行う.また,言語・画像・動画に関する特徴量だけでなく,知識ベースに整理されているような事実的知識や,常識的知識 (commonsense) を利用するための基礎技術 (例:グラフ埋め込み技術) の適用についても研究を行う.
|
Research Products
(31 results)