研究課題/領域番号 |
21H03505
|
研究機関 | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
研究代表者 |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
|
研究分担者 |
木村 昭悟 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (10396202)
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 談話構造解析 / キャプショニング |
研究実績の概要 |
動画談話構造解析法の開発:動画談話構造解析技術を実現するにはモデルの訓練/評価のためのデータセットの整備が必須である.データセットは,動画に対するイベント分割とそのキャプショニング,つまりDense Video Captioning (DVC) の結果とそれに対する談話構造解析の結果が必要となる.令和3年度では,アノテーションの信頼性を議論するため,少量の動画に対し,2名の作業者のDVCの結果がどの程度一致するかを調べた.その結果,既存データセットであるActivityNet Captionsと比較して,イベント分割の一致,キャプションの一致とも高いことを確認した.そして,既存のテキスト談話構造解析モデルの訓練/評価用ベンチマークデータセットであるRST Discourse Treebank (RST-DT) のアノテーション指針に従い,DVCの結果に対し,木構造,核性,関係ラベルアノテーションを行い,動画談話構造解析用のアノテーションが可能かを調べた.その結果,木構造,核性に関してはRST-DTの指針に従うことが可能であったが,関係ラベルに関しては見直しが必要であることがわかった.そこで,動画談話構造解析用に関係ラベルを新たに定義したうえで,大規模データセットを構築した.また,DVCと同様に談話構造のアノテーションの信頼性を議論するため,2名の作業者間のアノテーションの結果の一致を調べた.その結果,RST-DT における作業者間の一致とほぼ同等であることを確認した.
また,テキストを対象としたニューラルモデルによる談話構造解析に関して,解析戦略(トップダウン,ボトムアップ)とテキストスパンのベクトル表現を得るための事前学習済み言語モデルの組み合わせが解析性能にどのような影響を与えるかを調べた結果,解析戦略の影響は小さく,事前学習済み言語モデルの影響が大きいことがわかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
動画談話構造解析モデルを訓練/評価するためのデータセットを予定通り作成でき,その信頼性が十分高いことも確認できた.また,テキスト談話構造解析の方向性についても知見を得ることができたので今年度については計画通り達成できたと考えている.
|
今後の研究の推進方策 |
今後も計画通り進めていく予定である.
|