研究課題/領域番号 |
21H03505
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
研究分担者 |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2023年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2022年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2021年度: 7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円)
|
キーワード | 自然言語処理 / マルチモーダル / 談話構造解析 / ビデオキャプショニング / 自動要約 / キャプショニング |
研究開始時の研究の概要 |
膨大な量の動画が日々作成・蓄積される現代では,ユーザが所望の動画に効率的にアクセスするための技術の需要が高まっている.本研究では動画のイベント間の関係性を明らかにするための動画の談話構造解析技術を確立することを目的とする.動画の談話構造を明らかにすることで,イベント間の関係に焦点をあてた検索や,動画のストーリを把握しやすいビデオサムネイル生成などの応用が期待できる.具体的には,(1) 動画をイベントに分割しキャプションを生成する技術,(2)画像と対応するキャプションの双方から得られる特徴を用いて談話構造を解析する技術,(3)談話構造に基づき動画とテキストの要約を生成する技術の研究に取り組む.
|
研究実績の概要 |
昨年度,イベント間の意味関係を修辞構造木として表現する動画談話構造解析がタスクとして定義可能であることを小規模なデータセットにおける2名のアノテータ間の一致に基づき示した.本年度は,データを拡充し,ニューラルネットワークに基づくベースライン解析器を構築しその結果を分析した.その結果(1)イベントに与えられた正解キャプションからイベントのベクトル表現を得た場合,その解析性能は人間に匹敵する,(2)しかし,自動生成キャプションからイベントのベクトル表現を得た場合には解析性能が大きく劣る,(3)動画から直接ベクトル表現を得た場合には,正解キャプションを用いた場合よりも性能は劣るものの自動キャプションを用いた場合よりも優れていることがわかった.さらに動画から直接ベクトル表現を得るためのエンコーダをあらかじめキャプショニングタスクで事前学習しておくと性能向上が得られることがわかり,今後研究を発展させていく上で重要な知見を得た.
また,テキスト修辞構造解析に関して,性能向上のためのデータ拡張法の研究にも取り組んだ.ニューラルネットに基づく解析器の場合,大量のラベルなしデータを自動的に解析した結果を擬似正解データとして解析器の事前学習することで性能が向上することが知られている.しかし,ラベルなしデータを十分に得ることができないテキスト領域ではこの手法は適用できない.これを解決するため,少量のラベルつきデータから逆翻訳を用いて大量の擬似正解データを生成する手法を考案し,その有効性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
動画談話構造解析のためのデータセットを整備し,ベースライン解析器を構築した.その結果より,自動キャプションを利用するよりも動画特徴をそのまま利用することが有望であることがわかった.さらに,動画エンコーダをキャプショニングタスクで事前学習することで性能向上が見込まれることもわかった.今後解析器を改善していく上で非常に重要な知見を得ることができたので今年度については計画通り達成できたと考えている.
|
今後の研究の推進方策 |
今後も計画通り進めていく予定である.
|