Project/Area Number |
21H03505
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
Co-Investigator(Kenkyū-buntansha) |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2023: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2021: ¥7,800,000 (Direct Cost: ¥6,000,000、Indirect Cost: ¥1,800,000)
|
Keywords | 自然言語処理 / マルチモーダル / 談話構造解析 / ビデオキャプショニング / 自動要約 / キャプショニング |
Outline of Research at the Start |
膨大な量の動画が日々作成・蓄積される現代では,ユーザが所望の動画に効率的にアクセスするための技術の需要が高まっている.本研究では動画のイベント間の関係性を明らかにするための動画の談話構造解析技術を確立することを目的とする.動画の談話構造を明らかにすることで,イベント間の関係に焦点をあてた検索や,動画のストーリを把握しやすいビデオサムネイル生成などの応用が期待できる.具体的には,(1) 動画をイベントに分割しキャプションを生成する技術,(2)画像と対応するキャプションの双方から得られる特徴を用いて談話構造を解析する技術,(3)談話構造に基づき動画とテキストの要約を生成する技術の研究に取り組む.
|
Outline of Annual Research Achievements |
昨年度,イベント間の意味関係を修辞構造木として表現する動画談話構造解析がタスクとして定義可能であることを小規模なデータセットにおける2名のアノテータ間の一致に基づき示した.本年度は,データを拡充し,ニューラルネットワークに基づくベースライン解析器を構築しその結果を分析した.その結果(1)イベントに与えられた正解キャプションからイベントのベクトル表現を得た場合,その解析性能は人間に匹敵する,(2)しかし,自動生成キャプションからイベントのベクトル表現を得た場合には解析性能が大きく劣る,(3)動画から直接ベクトル表現を得た場合には,正解キャプションを用いた場合よりも性能は劣るものの自動キャプションを用いた場合よりも優れていることがわかった.さらに動画から直接ベクトル表現を得るためのエンコーダをあらかじめキャプショニングタスクで事前学習しておくと性能向上が得られることがわかり,今後研究を発展させていく上で重要な知見を得た.
また,テキスト修辞構造解析に関して,性能向上のためのデータ拡張法の研究にも取り組んだ.ニューラルネットに基づく解析器の場合,大量のラベルなしデータを自動的に解析した結果を擬似正解データとして解析器の事前学習することで性能が向上することが知られている.しかし,ラベルなしデータを十分に得ることができないテキスト領域ではこの手法は適用できない.これを解決するため,少量のラベルつきデータから逆翻訳を用いて大量の擬似正解データを生成する手法を考案し,その有効性を確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
動画談話構造解析のためのデータセットを整備し,ベースライン解析器を構築した.その結果より,自動キャプションを利用するよりも動画特徴をそのまま利用することが有望であることがわかった.さらに,動画エンコーダをキャプショニングタスクで事前学習することで性能向上が見込まれることもわかった.今後解析器を改善していく上で非常に重要な知見を得ることができたので今年度については計画通り達成できたと考えている.
|
Strategy for Future Research Activity |
今後も計画通り進めていく予定である.
|
Report
(2 results)
Research Products
(7 results)