研究課題/領域番号 |
21H03505
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
研究分担者 |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2023年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2022年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2021年度: 7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円)
|
キーワード | 自然言語処理 / 視覚と言語 / 修辞構造解析 / 談話構造解析 / マルチモーダル要約 / マルチモーダル / ビデオキャプショニング / 自動要約 / キャプショニング |
研究開始時の研究の概要 |
膨大な量の動画が日々作成・蓄積される現代では,ユーザが所望の動画に効率的にアクセスするための技術の需要が高まっている.本研究では動画のイベント間の関係性を明らかにするための動画の談話構造解析技術を確立することを目的とする.動画の談話構造を明らかにすることで,イベント間の関係に焦点をあてた検索や,動画のストーリを把握しやすいビデオサムネイル生成などの応用が期待できる.具体的には,(1) 動画をイベントに分割しキャプションを生成する技術,(2)画像と対応するキャプションの双方から得られる特徴を用いて談話構造を解析する技術,(3)談話構造に基づき動画とテキストの要約を生成する技術の研究に取り組む.
|
研究成果の概要 |
ストーリを伝える動画にはいくつかのイベントが含まれており,それらが関連を持つことで動画全体のストーリを伝える.こうしたイベントの間に成り立つ関係を解析することは,動画の内容理解,要約や Video QAといった下流タスクの性能を向上させるために役立つ.本研究課題では,動画の背後にあるストーリ構造を修辞構造理論に基づく木としてとらえ,解析器の訓練・評価のためのデータセットを構築し,ベースライン解析器の性能を調べた.その結果,テキスト知識を解析器のエンコーダに転移することが有効であることがわかった.また,動画の修辞構造がマルチモーダル要約に役立つことを示した.
|
研究成果の学術的意義や社会的意義 |
SNSの発展に伴いインターネット上に投稿される動画は増加の一途をたどっている.しかし,テキストとは異なり,自然言語でそれらを検索することや概要を簡単に把握することは困難であり,人間の情報アクセスを支援する仕組みが必要である.動画の修辞構造を明らかにする研究成果はこうした課題の解決に貢献するという点で大きな意義がある.また,学術的にも視覚と言語の融合に基づく談話構造解析という新しい研究課題であり,その達成に向けた研究成果の意義は高い.
|