動画談話構造解析とそれを用いた要約生成

研究課題

研究課題/領域番号	21H03505
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	日本電信電話株式会社NTTコミュニケーション科学基礎研究所
研究代表者	平尾努日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
研究分担者	木村昭悟日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202) 奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円) 2023年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2022年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円) 2021年度: 7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円)
キーワード	自然言語処理 / 視覚と言語 / 修辞構造解析 / 談話構造解析 / マルチモーダル要約 / マルチモーダル / ビデオキャプショニング / 自動要約 / キャプショニング
研究開始時の研究の概要	膨大な量の動画が日々作成・蓄積される現代では，ユーザが所望の動画に効率的にアクセスするための技術の需要が高まっている.本研究では動画のイベント間の関係性を明らかにするための動画の談話構造解析技術を確立することを目的とする.動画の談話構造を明らかにすることで，イベント間の関係に焦点をあてた検索や，動画のストーリを把握しやすいビデオサムネイル生成などの応用が期待できる.具体的には，(1) 動画をイベントに分割しキャプションを生成する技術，(2)画像と対応するキャプションの双方から得られる特徴を用いて談話構造を解析する技術，(3)談話構造に基づき動画とテキストの要約を生成する技術の研究に取り組む.
研究成果の概要	ストーリを伝える動画にはいくつかのイベントが含まれており，それらが関連を持つことで動画全体のストーリを伝える．こうしたイベントの間に成り立つ関係を解析することは，動画の内容理解，要約や Video QAといった下流タスクの性能を向上させるために役立つ．本研究課題では，動画の背後にあるストーリ構造を修辞構造理論に基づく木としてとらえ，解析器の訓練・評価のためのデータセットを構築し，ベースライン解析器の性能を調べた．その結果，テキスト知識を解析器のエンコーダに転移することが有効であることがわかった．また，動画の修辞構造がマルチモーダル要約に役立つことを示した．
研究成果の学術的意義や社会的意義	SNSの発展に伴いインターネット上に投稿される動画は増加の一途をたどっている．しかし，テキストとは異なり，自然言語でそれらを検索することや概要を簡単に把握することは困難であり，人間の情報アクセスを支援する仕組みが必要である．動画の修辞構造を明らかにする研究成果はこうした課題の解決に貢献するという点で大きな意義がある．また，学術的にも視覚と言語の融合に基づく談話構造解析という新しい研究課題であり，その達成に向けた研究成果の意義は高い．

報告書

(4件)

研究成果
(10件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (9件) (うち国際学会 3件)

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022
- 著者名/発表者名
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- 雑誌名
  
  自然言語処理
  
  巻: 29 号: 3 ページ: 875-900
- DOI
  10.5715/jnlp.29.875
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実績報告書
- 査読あり
[学会発表] Can we obtain significant success in RST discourse parsing by using Large Language Models?2024
- 著者名/発表者名
  Aru Maekawa, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura
- 学会等名
  Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 大規模言語モデルによるシフト還元修辞構造解析の模倣2024
- 著者名/発表者名
  前川在, 平尾努, 上垣外英剛, 奥村学
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 動画談話構造解析：ベースライン解析器とその分析2023
- 著者名/発表者名
  平尾努, 小林尚輝, 上垣外英剛, 奥村学, 木村昭悟
- 学会等名
  第26回画像の認識・理解シンポジウム
- 関連する報告書
  2023 実績報告書
[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2023
- 著者名/発表者名
  前川在, 小林尚輝, 平尾努, 上垣外英剛, 奥村学
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 動画談話構造解析へ向けたデータセット構築2022
- 著者名/発表者名
  平尾努, 小林尚輝, 上垣外英剛, 奥村学, 木村昭悟
- 学会等名
  第25回画像の認識・理解シンポジウム
- 関連する報告書
  2022 実績報告書
[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022
- 著者名/発表者名
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, Masaaki Nagara
- 学会等名
  Findings of the Association for Computational Linguistics: EMNLP 2022
- 関連する報告書
  2022 実績報告書
[学会発表] 言語モデルと解析戦略の観点からの修辞構造解析器の比較2022
- 著者名/発表者名
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] Improving Neural RST Parsing Model with Silver Agreement Subtrees2021
- 著者名/発表者名
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, Masaaki Nagata
- 学会等名
  Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] A Language Model-based Generative Classifier for Sentence-level Discourse Parsing2021
- 著者名/発表者名
  Ying Zhang, Hidetaka Kamigaito, Manabu Okumura
- 学会等名
  Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing
- 関連する報告書
  2021 実績報告書
- 国際学会

動画談話構造解析とそれを用いた要約生成

研究代表者

平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)

17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)

報告書

研究成果

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[学会発表] Can we obtain significant success in RST discourse parsing by using Large Language Models?2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデルによるシフト還元修辞構造解析の模倣2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 動画談話構造解析：ベースライン解析器とその分析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 動画談話構造解析へ向けたデータセット構築2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 言語モデルと解析戦略の観点からの修辞構造解析器の比較2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improving Neural RST Parsing Model with Silver Agreement Subtrees2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Language Model-based Generative Classifier for Sentence-level Discourse Parsing2021

著者名/発表者名

学会等名

関連する報告書

平尾努日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)