• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Deep semantic annotation of video contents

Research Project

Project/Area Number 17H01831
Research InstitutionWaseda University

Principal Investigator

林 良彦  早稲田大学, 理工学術院, 教授(任期付) (80379156)

Co-Investigator(Kenkyū-buntansha) 加藤 恒昭  東京大学, 大学院総合文化研究科, 教授 (60334299)
小川 哲司  早稲田大学, 理工学術院, 准教授 (70386598)
植木 一也  明星大学, 情報学部, 准教授 (80580638)
Project Period (FY) 2017-04-01 – 2021-03-31
Keywords情報資源の構築・管理 / 動画 / 意味的注釈 / シーングラフ生成 / キャプション生成 / 動詞意味論 / 語彙意味関係 / オントロジー
Outline of Annual Research Achievements

本研究課題の目的は,動画中の主体者の動作内容を表す意味注釈を付与する方式を実現することにある.2年目にあたる2018年度は,以下の項目について,おおむね順調な進展を得た.(雑誌論文:2件,国際会議発表:12件,国内会議発表:16件,図書:1件)
(1) シーングラフの効率的な生成: 動画のフレーム画像に描写されている物体 (主体者含む),および,それらの間の関係をグラフ構造として抽出し,キーフレーム画像群に対する系列として整形・整列させることにより意味注釈を得る.本年度は,言語特徴量を含む様々な特徴量を利用しつつ,効率的なグラフ生成が可能となる計算機構を実現し,良好な精度を得た.
(2) 動画に対する動作キャプション生成: 動画から言語表現による動作キャプションを生成し,これをもとに意味注釈を抽出するアプローチの研究を新たに開始した.一般的なキャプションの生成を仮定し,ここから主体者による主な動作を表す内容のみを抽出して,言語解析が容易な表現として生成する方法を実現する.本年度は,既存のデータセットをもとに書き換え正解例のデータセット作成を進めた.また,文分割タスクで事前学習した書き換えモデルをドメイン適用によりファインチューンし,さらにコピー機構を導入することにより,妥当な動作キャプションの生成が行える見通しを得た.
(3) 動画アドホック検索への適用の試行: 昨年度に引き続き,TRECVID AVSタスクを対象にクエリに基づく動画検索方式の研究を進めた.
(4) 言語の意味表現に関する基礎研究の推進: 語彙意味関係の認識の高度化を推進した.また,汎用的な文の分散表現の構成法,従来の機械読解タスクの仮定の限界をこえる読解方式 (回答がない質問を正しく検出できる) を研究するために不可欠なデータセットの構築法などについて研究を進め,トップレベルの国際会議で発表した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初計画していた,動画に対する意味的注釈のためのオントロジー体系の構築については引き続き大規模な画像データセットに対する分析を進めたが,データのノイズなどのために有用な結果を得るに至っていない.一方で,言語の意味表現の構成法に関しては,単語ペア間の意味関係の識別や,汎用的な文の分散表現の構成法などにおいて,一定の進捗を得ることができ,これは,上記のオントロジー体系の構築において有用な補助手段を与えるものと評価できる.また,シーングラフの効率的かつ精度の良い生成法を確立することができ,さらに新たに着手した文書き換え技術の適用による動作キャプションの生成に関しても有効性を確認することができた.以上を総合して,おおむね順調に進展していると評価する.

Strategy for Future Research Activity

(1) シーングラフ生成の高度化: 局所的な特徴量を利用する方式については,精度,効率ともに一定の結果を得たので,シーングラフ精度の飛躍的な向上を目指すために,(a) シーンに関する大局的な特徴やフレーム画像の時系列的な特徴を統合する方法論,(b) 物体間の大小関係や物体が存在しうる空間的制約などの制約を適用する基礎的な方式について検討を進める.
(2) 動画に対する動作キャプション生成: 一般キャプションの書き換えによって動作キャプションを得る方法に関しては,別途認識される動作種別の情報を制約として利用することにより,さらに精度を高める方法を検討する.さらには,一般キャプション生成から動作キャプション生成という2段階の処理過程をエンドツーエンドで実現する方式の検討を開始する.
(3) 動画アドホック検索への適用の試行: 引き続き TRECVID AVS タスクを対象に,同社キャプションに対する言語情報による検索のフィージビリティ・スタディを進め,可能であれば,従来の画像情報に基づく検索方式との統合による精度向上について検討を開始する.また,適切な評価尺のの提案へ向けて,実証的な検討を進める.
(4) 言語の意味表現に関する基礎研究の推進: 引き続き,本課題の様々な箇所・過程に適用可能な言語表現に関する基礎研究を推進する.これらの研究をもとに,動画に対する深い意味注釈を行うための語彙 (オントロジー) 体系の検討を行う.また,言語・画像・動画に関する特徴量だけでなく,知識ベースに整理されているような事実的知識や,常識的知識 (commonsense) を利用するための基礎技術 (例:グラフ埋め込み技術) の適用についても研究を行う.

  • Research Products

    (31 results)

All 2019 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (28 results) (of which Int'l Joint Research: 12 results,  Invited: 1 results) Book (1 results)

  • [Journal Article] A Spoken Dialogue System for Enabling Information Behavior of Various Intention Levels2018

    • Author(s)
      Takatsu Hiroaki、Fukuoka Ishin、Fujie Shinya、Hayashi Yoshihiko、Kobayashi Tetsunori
    • Journal Title

      Transactions of the Japanese Society for Artificial Intelligence

      Volume: 33 Pages: DSH~C_1-24

    • DOI

      https://doi.org/10.1527/tjsai.DSH-C

    • Peer Reviewed / Open Access
  • [Journal Article] Zero-Shot Video Retrieval from a Query Phrase Including Multiple Concepts ?Efforts and Challenges in TRECVID AVS Task?2018

    • Author(s)
      UEKI Kazuya、HIRAKAWA Koji、KIKUCHI Kotaro、KOBAYASHI Tetsunori
    • Journal Title

      Journal of the Japan Society for Precision Engineering

      Volume: 84 Pages: 983~990

    • DOI

      https://doi.org/10.2493/jjspe.84.983

    • Peer Reviewed / Open Access
  • [Presentation] 隣接単語系列の予測による汎用的な文の分散表現の構成2019

    • Author(s)
      露木浩章, 小川哲司, 小林哲則, 林 良彦
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] 語彙的含意関係識別による単語意味属性の推定2019

    • Author(s)
      長谷川美夏, 小林哲則, 林 良彦
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] 言語特徴量を利用したシーングラフ生成の効率的な計算機構2019

    • Author(s)
      黒澤郁音, 菊池康太郎, 小林哲則, 林 良彦
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] 会話によるニュース記事伝達のための要約2019

    • Author(s)
      高津弘明, 本田裕, 藤江真也, 林 良彦, 小林哲則
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] 対話型質問応答における参照の影響2019

    • Author(s)
      中西真央, 小林哲則, 林 良彦
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] 動画からの動作キャプション生成における書き換え技術の適用2019

    • Author(s)
      平川幸司, 小林哲則, 林 良彦
    • Organizer
      言語処理学会第25回年次大会 (NLP2019)
  • [Presentation] クエリ文によるゼロショット映像検索 - TRECVID 2018 AVSタスクの成果報告 -2019

    • Author(s)
      植木 一也,中込 優,平川 幸司,菊池 康太郎,林 良彦,小川 哲司,小林 哲則
    • Organizer
      動的画像処理実用化ワークショップ (DIA2019)
  • [Presentation] ドメイン属性情報を用いたRNN言語モデルのドメイン汎化2019

    • Author(s)
      芦川博人,森岡幹,俵直弘,小川厚徳,岩田具治,小川哲司,小林哲則
    • Organizer
      2019年度 日本音響学会講演論文集
  • [Presentation] 画像から得られる牛の身体情報に基づく分娩予兆検知2019

    • Author(s)
      兵頭亮介,斎藤奨,中野鐵兵,赤羽誠,小林哲則,小川哲司
    • Organizer
      2019年度 人工知能学会全国大会 (発表予定)
  • [Presentation] 動画像から得られる牛の身体情報に基づく分娩予兆検知システム2019

    • Author(s)
      兵頭亮介,菅原一真,中野鐵兵,赤羽誠,小林哲則,小川哲司
    • Organizer
      電子情報通信学会技術研究報告 (PRMU), PRMU2019-XX (発表予定)
  • [Presentation] Social Image Tags as a Source of Word Embeddings: A Task-oriented Evaluation2018

    • Author(s)
      Mika Hasegawa, Testunori Kobayashi, Yoshihiko Hayashi
    • Organizer
      Proc. of LREC2018, pp.969-973
    • Int'l Joint Research
  • [Presentation] Answerable or Not: Devising a Dataset for Extending Machine Reading Comprehension2018

    • Author(s)
      Mao Nakanishi, Tetsunori Kobayashi, Yoshihiko Hayashi
    • Organizer
      Proc. of COLING2018, pp.973-983
    • Int'l Joint Research
  • [Presentation] Ad-hoc Video Search Improved by the Word Sense Filtering of Query Terms2018

    • Author(s)
      Kouji Hirakawa, Kotaro Kikuchi, Kazuya Ueki, Tetsunori Kobayashi, Yoshihiko Hayashi
    • Organizer
      Proc. of AIRS2018, pp.157-163
    • Int'l Joint Research
  • [Presentation] Undersampling Improves Hypernymy Prototypicality Learning2018

    • Author(s)
      Koki Washio and Tsuneaki Kato
    • Organizer
      Proc. of LREC2018, pp.4550-4554
    • Int'l Joint Research
  • [Presentation] Filling Missing Paths: Modeling Co-occurrences of Word Pairs and Dependency Paths for Recognizing Lexical Semantic Relations2018

    • Author(s)
      Koki Washio and Tsuneaki Kato
    • Organizer
      Proc. of NAACL2018, pp.1123 -1133
    • Int'l Joint Research
  • [Presentation] Neural Latent Relational Analysis to Capture Lexical Semantic Relation2018

    • Author(s)
      Koki Washio and Tsuneaki Kato
    • Organizer
      Proc. of EMNLP2018, pp.594-600
    • Int'l Joint Research
  • [Presentation] Fine-grained Video Retr ieval using Query Phrases: Waseda_Meisei TRECVID 2017 AVS System2018

    • Author(s)
      Kazuya Ueki, Koji Hirakawa, Kotaro Kikuchi, and Tetsunori Kobayashi,
    • Organizer
      Proc. of ICPR2018
    • Int'l Joint Research
  • [Presentation] Video Recognition and Retrieval at the TRECVID Benchmark2018

    • Author(s)
      George Awad, Alan Smeaton, Cees Snoek, Shin'ichi Satoh, Kazuya Ueki
    • Organizer
      ECCV2018, Tutorial
    • Int'l Joint Research / Invited
  • [Presentation] Waseda_Meisei at TRECVID2018: Ad-hoc Video Search2018

    • Author(s)
      Yu Nakagome, Kazuya Ueki, Koji Hirakawa, Kotaro Kikuchi, Yoshihiko Hayashi, Tetsuji Ogawa, Tetsunori Kobayashi
    • Organizer
      Notebook paper of the TRECVID 2018
    • Int'l Joint Research
  • [Presentation] Latent Concept Extraction for Zero-shot Video Retrieval2018

    • Author(s)
      Kazuya Ueki
    • Organizer
      Proc. of IVCNZ2018
    • Int'l Joint Research
  • [Presentation] Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations2018

    • Author(s)
      Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi
    • Organizer
      Proc. ICASSP2018, pp.6084-6088
    • Int'l Joint Research
  • [Presentation] Speaker invariant feature extraction for zero-resource languages with adversarial training2018

    • Author(s)
      Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa
    • Organizer
      Proc. ICASSP2018, pp.2381-2385
    • Int'l Joint Research
  • [Presentation] 言語情報を用いたCRFによるシーングラフ認識2018

    • Author(s)
      黒澤 郁音, 菊池 康太郎, 小林 哲則, 林 良彦
    • Organizer
      第21回 画像の認識・理解シンポジウム (MIRU2018)
  • [Presentation] クエリ文からのコンセプトの選択に基づくアドホック動画検索2018

    • Author(s)
      平川 幸司, 菊池 康太郎, 植木 一也, 林 良彦, 小林 哲則
    • Organizer
      第21回 画像の認識・理解シンポジウム (MIRU2018)
  • [Presentation] ゼロショット映像検索のための潜在的なコンセプトの抽出2018

    • Author(s)
      植木 一也
    • Organizer
      第21回 画像の認識・理解シンポジウム (MIRU2018)
  • [Presentation] 会話によるニュース記事伝達のための発話意図分類とデータベースの構築2018

    • Author(s)
      横山 勝矢, 高津 弘明, 本田 裕, 藤江 真也, 林 良彦, 小林 哲則
    • Organizer
      2018年度 人工知能学会全国大会
  • [Presentation] 会話によるニュース記事伝達のための発話意図理解2018

    • Author(s)
      高津 弘明, 横山 勝矢, 本田 裕, 藤江 真也, 林 良彦, 小林 哲則
    • Organizer
      2018年度 人工知能学会全国大会
  • [Presentation] 映像からの牛の分娩予兆行動検知に関する検討2018

    • Author(s)
      菅原一真,中野鐵兵,赤羽誠,小林晢則,小川哲司
    • Organizer
      電子情報通信学会技術研究報告 (PRMU), PRMU2018-85
  • [Book] 自然言語処理のための深層学習2019

    • Author(s)
      Yoav Goldberg、加藤 恒昭、林 良彦、鷲尾 光樹、中林 明子
    • Total Pages
      336
    • Publisher
      共立出版
    • ISBN
      978-4320124462

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi