2022 年度実績報告書

テキスト間の関係を考慮した複数テキスト生成型ニューラル要約に関する研究

研究課題

研究課題/領域番号	21H03495
研究機関	東京工業大学
研究代表者	奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)
研究分担者	上垣外英剛奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	自然言語処理
研究実績の概要	テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由テキスト内の文間の関係を解析する文書構造解析器は，我々のグループが世界最高性能を達成していたが，引き続き研究開発を継続し，新しい手法を提案することで，現在も世界最高性能を維持している．この分野の技術の進歩を明確にできるよう，既存の上向き，下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した．この解析器を評価した結果，解析戦略には大きな差がなく，トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった．特に，DeBERTa を用いると世界最高性能を達成した．また，十分な量の学習データを確保できないことにより，文間の修辞構造解析の性能は文内と比較して大幅に低く，下流タスクにとって大きな問題となっている．これを解決するため，学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し，正解データを用いて追加学習する手法を提案した．シフト還元法による上向き解析器，スパン分割による下向き解析器に提案法を適用し，標準的ベンチマークデータセットであるRST-DT，Instr-DT を用いて評価した結果，疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した．
今後の研究の推進方策	単一文書内での構造解析，ニューラル要約モデルを文書横断構造解析，ニューラル複数文書要約モデルへと拡張していくことを引き続き進めていく予定である．

研究成果
(3件)

すべて 2022

すべて雑誌論文 (1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022
- 著者名/発表者名
  小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明
- 雑誌名
  
  自然言語処理
  
  巻: 29 ページ: 10-17
- DOI
  10.5715/jnlp.29.875
[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022
- 著者名/発表者名
  Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura and Masaaki Nagata
- 学会等名
  The 2022 Conference on Empirical Methods in Natural Language Processing EMNLP 2022
- 国際学会
[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022
- 著者名/発表者名
  前川在, 小林尚輝, 平尾努, 上垣外英剛, 奥村学
- 学会等名
  言語処理学会第29回年次大会(NLP2023)

2022 年度 実績報告書

テキスト間の関係を考慮した複数テキスト生成型ニューラル要約に関する研究

研究代表者

奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 疑似正解データを 活用したニューラル修辞構造解析2022

著者名/発表者名

雑誌名

DOI

[学会発表] A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing2022

著者名/発表者名

学会等名

[学会発表] 逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善2022

著者名/発表者名

学会等名

2022 年度実績報告書

奥村学東京工業大学, 科学技術創成研究院, 教授 (60214079)

[雑誌論文] 疑似正解データを活用したニューラル修辞構造解析2022

[学会発表] 逆翻訳を利用したデータ拡張による文間の修辞構造解析の改善2022