研究課題/領域番号 |
21H03505
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
研究分担者 |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 視覚と言語 / 修辞構造解析 |
研究成果の概要 |
ストーリを伝える動画にはいくつかのイベントが含まれており,それらが関連を持つことで動画全体のストーリを伝える.こうしたイベントの間に成り立つ関係を解析することは,動画の内容理解,要約や Video QAといった下流タスクの性能を向上させるために役立つ.本研究課題では,動画の背後にあるストーリ構造を修辞構造理論に基づく木としてとらえ,解析器の訓練・評価のためのデータセットを構築し,ベースライン解析器の性能を調べた.その結果,テキスト知識を解析器のエンコーダに転移することが有効であることがわかった.また,動画の修辞構造がマルチモーダル要約に役立つことを示した.
|
自由記述の分野 |
自然言語処理
|
研究成果の学術的意義や社会的意義 |
SNSの発展に伴いインターネット上に投稿される動画は増加の一途をたどっている.しかし,テキストとは異なり,自然言語でそれらを検索することや概要を簡単に把握することは困難であり,人間の情報アクセスを支援する仕組みが必要である.動画の修辞構造を明らかにする研究成果はこうした課題の解決に貢献するという点で大きな意義がある.また,学術的にも視覚と言語の融合に基づく談話構造解析という新しい研究課題であり,その達成に向けた研究成果の意義は高い.
|