Project/Area Number |
21H03505
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
Hirao Tsutomu 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
Co-Investigator(Kenkyū-buntansha) |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2023: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2021: ¥7,800,000 (Direct Cost: ¥6,000,000、Indirect Cost: ¥1,800,000)
|
Keywords | 自然言語処理 / 視覚と言語 / 修辞構造解析 / 談話構造解析 / マルチモーダル要約 / マルチモーダル / ビデオキャプショニング / 自動要約 / キャプショニング |
Outline of Research at the Start |
膨大な量の動画が日々作成・蓄積される現代では,ユーザが所望の動画に効率的にアクセスするための技術の需要が高まっている.本研究では動画のイベント間の関係性を明らかにするための動画の談話構造解析技術を確立することを目的とする.動画の談話構造を明らかにすることで,イベント間の関係に焦点をあてた検索や,動画のストーリを把握しやすいビデオサムネイル生成などの応用が期待できる.具体的には,(1) 動画をイベントに分割しキャプションを生成する技術,(2)画像と対応するキャプションの双方から得られる特徴を用いて談話構造を解析する技術,(3)談話構造に基づき動画とテキストの要約を生成する技術の研究に取り組む.
|
Outline of Final Research Achievements |
Videos that convey a story contain several events, and the relationships between these events contribute to the overall story of the video. Analyzing the relationships between such events helps improve video understanding and the performance of downstream tasks such as summarization and Video QA. In this research, we represent the underlying story structure of videos as trees based on Rhetorical Structure Theory, construct a dataset for training and evaluating parsers, and investigate the performance of baseline parsers. The results showed that transferring textual knowledge to the parser's encoder is effective. Furthermore, we demonstrated that the rhetorical structure of videos is beneficial for multimodal summarization.
|
Academic Significance and Societal Importance of the Research Achievements |
SNSの発展に伴いインターネット上に投稿される動画は増加の一途をたどっている.しかし,テキストとは異なり,自然言語でそれらを検索することや概要を簡単に把握することは困難であり,人間の情報アクセスを支援する仕組みが必要である.動画の修辞構造を明らかにする研究成果はこうした課題の解決に貢献するという点で大きな意義がある.また,学術的にも視覚と言語の融合に基づく談話構造解析という新しい研究課題であり,その達成に向けた研究成果の意義は高い.
|